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0.1 Prefacio 

El crecimiento de los ordenadores y la facilidad de adquirir y procesar grandes bancos de 
datos en todas las ciencias ha estimulado el desarrollo y utilization del analisis estadist-ico 
multivariante en muchas disciplinas. En las Ciencias Economicas y empresariales los metodos 
estadist-icos multivariantes se utilizan para cuantificar el desarrollo de un pai's, determinar 
las dimensiones existentes entre ingresos y gastos familiares, comprender el comportamiento 
de los consumidores y medir la calidad de productos y servicios. En Ingenien'a para disenar 
maquinas inteligentes que reconozcan formas o caract-eres, para construir clasificadores que 
aprendan interactivamente con el entorno y para establecer sistemas de control de procesos. 
En Ciencias de la computation para desarrollar sistemas de int-eligencia artificial. En Medi- 
cina para construir procedimientos automat-icos de ayuda al diagnostico. En Psicologfa para 
interpretar los resultados de pruebas de aptitudes. En Sociologi'a y Ciencia Polit-ica para el 
analisis de encuest-as de actitudes y opiniones sociales y poh'ticas. 

Este libro present-a las tecnicas actuales mas utilizadas del Analisis multivariante. Su 
contenido se ha seleccionado para que pueda ser util a distintos tipos de audiencias, pero esta 
especialmente orient-ado como t-ext-o en un curso orient-ado a las aplicaciones pero donde se 
desee proportional’ al estudiante los fundament-os de las herramient-as present-adas de manera 
que se facilit-e su utilization inteligente conociendo sus posibilidades y limit-aciones. Para 
conseguir este objet-ivo, el libro incluye numerosos ejemplos de aplicacion de la tecnicas, pero 
tambien presenta con cierto det-alle los fundament-os estadist-icos de las tecnicas expuest-as. 
En la exposition se ha procurado prescindir de los det-alles tecnicos que t-ienen mas interes 
para especialist-as, y este material se ha present-ado en los apendices y en los ejercicios al 
final de cada capi'tulo. Por otro lado, se recomienda que los est-udiantes realizen un proyecto 
donde apliquen los met-odos estudiados a sus propios datos, para que adquieran la experiencia 
pract-ica que les permitira utilizarlos despues con exit-o en su trabajo profesional. 

Este libro ha tenido una largo pen'odo de gestation. Mi interes por el Analisis Multivari- 
ante se lo debo a Rafael Romero, Catedrat-ico en la Universidad Politecnica de Valencia y 
excelent-e profesor, de quien aprendi, a finales de los anos 70, la pot-encia de estos metodos 
como herramient-as de investigation empi'rica y su inmenso campo de aplicacion. La primera 
version de este libro tenia la mit-ad del tarnaho actual y se redacto por primera vez a finales 
de los anos 80 para un curso de Doct-orado en la Universidad Politecnica de Madrid. Desde 
ent-onces, cada aho el manuscrito ha ido sufrido revisiones y ampliaciones, frut-o de su uso 
como not-as de clase en varias universidades, y especialmente en la Universidad Carlos III de 
Madrid. Est-oy agradecido a mis est-udiant.es del curso de doct-orado sobre analisis multivari- 
ante que han sugerido muchas mejoras y detect-ado errores y erratas de versiones anteriores. 
En esa labor estoy especialmente en deuda con Ana Just-el, Juan Antonio Gil, Juan Carlos 
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Ibanez, Monica Benito, Pilar Barrios, Pedro Galeano y Rebeca Albacete, por sus numerosas 
sugerencias y cuidadosa lectura de versiones ant.eriores de estos capi'tulos. He tenido tambien 
la fortuna de contar con excelentes comentarios de mis colegas Carlos Cuadras, Javier Giron, 
Jorge Martinez, Alberto Munoz, Rosario Romera, Juan Romo, Santiago Velilla, George Tiao, 
Victor Yohai y Ruben Zamar, que me han ayudado a mejorar el texto en muchos aspectos. 
El libro incorpora resultados recientes, fruto de invest-igaciones conjuntas con Javier Prieto 
y Julio Rodriguez, con los que ha sido un placer trabajar y de los que ha aprendido mu- 
cho. Ademas, Julio Rodriguez, me ha ayudado en la preparation de muchos de los ejemplos 
y ha lei'do y comentado sucesivas versiones del manuscrito encontrando siempre formas de 
mejorarlo. 
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Capftulo 1 

INTRODUCTION 


1.1 EL ANALISIS DE DATOS MULTIVARI ANTES 

Describir cualquier situacion real, por ejemplo, las caract-erist-icas fi'sicas de una persona, la 
situacion poh'tica en un pai's, las propiedades de una imagen, el rendimiento de un proceso, la 
calidad de una obra de arte o las motivaciones del comprador de un producto, requiere t-ener 
en cuenta simultaneamente varias variables. Para describir las caracterfsticas fi'sicas de una 
persona podemos utilizar variables como su estatura, su peso, la longitud de sus brazos y de 
sus piernas, etc. Para describir la situacion poh'tica de un pai's, variables como la existencia 
o no de un regimen democratico, el grado de participacion poh'tica de los ciudadanos, el 
numero de partidos y sus afiliados, etc. El analisis de datos multivariantes tienen por objeto 
el est-udio estadfstico de varias variables medidas en element-os de una poblacion. Pret-ende 
los siguientes objet-ivos. 

1. Resumir el conjunto de variables en una pocas nuevas variables, construidas como 
transformaciones de las originales, con la minima perdida de informacion. 

2. Encontrar grupos en los datos si exist-en. 

3. Clasificar nuevas observaciones en grupos definidos. 

4. Relacionar dos conjuntos de variables. 

Vamos a explicar estos objet-ivos. El lector habra encontrado que la descripcion de una 
realidad compleja donde exist-en muchas variables se simplifica mediant-e la construcci'on de 
uno o varios indices o indicadores que la resumen. Por ejemplo, el crecimiento de los precios 
en una economi'a se resume en un l'ndice de precios, la calidad de una universidad o de un 
depart-amento se resume en unos pocos indicadores y las dimensiones del cuerpo humano se 
resumen en la ropa de confection en unas pocas variables indicadoras del conjunt-o. Disponer 
de estas indicadores tiene varias ventajas: (1) si son pocas podemos represent-arlas grafica- 
ment-e y comparar distint-os conjunt-os de dat-os o instantes en el tiempo; (2) simplifican el 
analisis al permitir trabajar con un numero menor de variables; (3) si las variables indicado- 
ras pueden interpretarse, podemos mejorar uuestro conocimiento de la realidad estudiada. 
El analisis multivariante de dat-os proporciona metodos objet-ivos para conocer cuant-as vari- 
ables indicadoras, que a veces se denomiua fact-ores, son necesarias para describir una realidad 
compleja y determinar su estructura. 

El segundo objet-ivo es identificar grupos si exist-en. Si observamos un conjunto de vari- 
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ables eii empresas, esperamos los datos indiquen una division de las empresas en grupos 
en funcion de su rentabilidad, su eficacia comercial o su estructura productiva. En muchas 
sit-uaciones los grupos son desconocidos a priori y queremos disponer de un procedimien- 
to objetivo para obtener los grupos existentes y clasificar las observaciones. Por ejemplo, 
deseamos construir una tipologi'a de clientes, de votant-es o de procesos product-ivos. 

Un tercer objetivo relacionado con el anterior aparece cuando los grupos estan bien 
definidos a priori y queremos clasificar nuevas observaciones. Por ejemplo, queremos clasificar 
a clientes que solicitan creditos como fiables o no, personas como enfermas o no, o disenar 
una maquina que clasifique monedas o billetes en clases prefijadas. 

Para alcanzar estos tres objet-ivos una herramienta importante es ent-ender la estructura 
de dependencia entre las variables, ya que las relaciones entre las variables son las que 
permiten resumirlas en variables indicadoras, encontrar grupos no aparent-es por las variables 
individuales o clasificar en casos complejos. Un problema distinto es relacionar dos conjuntos 
de variables. Por ejemplo, podemos disponer de un conjunto de variables de capacidad 
intelectual y otros de resultados profesionales y queremos relacionar ambos conjuntos de 
variables. En particular, los dos grupos de variables pueden corresponder a las mismas 
variables medidas en dos moment-os dist-int-os en el tiempo o en el espacio y queremos ver la 
relacion entre ambos conjuntos. 

Las tecnicas de analisis multivariante t-ienen aplicaciones en t-odos los campos cientfficos 
y comenzaron desarrollandose para resolver problemas de clasificacion en Biologi'a, se ex- 
t-endieron para encontrar variables indicadoras y factores en Psicometn'a, Marketing y las 
Ciencias sociales y han alcanzado una gran aplicacion en Ingenien'a y Ciencias de la com- 
putation como herramientas para resumir la informacion y disenar sist-emas de clasificacion 
aut-omat-ica y de reconocimiento de patrones. Algunos ejemplos iudicat-ivos de sus aplica- 
ciones en distintas disciplinas, muchos de los cuales seran objet-o de analisis det-allado en est-e 
libro, son: 

Administration de Empresas: Construir tipologi'as de clientes. 

Agricultura: Clasificar terrenos de cultivo por fot-os aereas. 

Arqueologi'a: Clasificar restos arqueologicos. 

Biometrfa: Identical’ los factores que determinan la forma de un organismo vivo. 

Ciencias de la Computacion: Disenar algoritmos de clasificacion automat-ica. 

Ciencias de la Educacion: Investigar la efectividad del aprendizaje a dist-ancia. 

Ciencias del medio ambient-e: Investigar las dimensiones de la contamination ambient-al. 

Documentation: Clasificar revist-as por sus artfculos y construir indicadores bibliometri- 
cos. 

Economi'a: Identificar las dimensiones del desarrollo economico. 

Geologi'a: Clasificar sediment-os. 

Hist-oria: Determinar la importancia relativa de los fact-ores que caract-erizan los periodos 
prerevolucionarios. 

Ingenien'a: Transmitir optimament-e senales por canales digit-ales. 

Lingufstica: Encontrar patrones de asociacion de palabras. 

Medicina: Identificar tumores mediant-e imagenes digit-ales. 

Psicologi'a: Determinar los factores que componen la inteligencia humana 

Sociologi'a y Ciencia Poh't-ica: Consstruir tipologi'as de los votantes de un partido. 
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Algunas de esas aplicaciones han t-enido una repercusion importante en la evolution del 
analisis mutivariante, como veremos en la section 1.4. 


1.2 ESTRUCTURA DEL LIBRO 

Los datos de partida para un analisis multivariante estan habitualmente en una tabla de dos 
o mas dimensiones y para trabajar con ellos es muy convenient-e considerar la tabla como 
una o varias matrices. El capi'tulo 2 presenta los fundament-os matemat-icos de algebra lineal 
que son necesarios para trabajar con matrices y entender sus propiedades. Este capi'tulo 
esta disenado de forma instrumental para proportional- los conceptos basicos y las t-ecnicas 
necesarias para los analisis estadi'st-icos present-ados en los capi'tulos posteriores. 

El analisis multivariante pude plantearse a dos niveles. En el primero, el objet-ivo es 
utilizar solo los datos disponibles y extraer la informacion que contienen. Los metodos 
encaminados a este objet-ivo se conocen como met-odos de exploration de datos, y se 
presentan en la primera parte del libro que cubre los capi'tulos 3 al 8. A un nivel mas 
avanzado, se pretende obtener conclusiones sobre la poblacion que ha generado los dat-os, lo 
que requiere la construction de un modelo que explique su generation y permita prever lo 
dat-os futuros. En este segundo nivel hemos generado conocimiento sobre el problema que va 
mas alia del analisis particular de los dat-os disponibles. Los met-odos encaminados a este 
objetivo se conocen como metodos de inferencia, y se presentan en la segunda parte del 
libro, capi'tulos 9 al 16 . 

El primer paso en la description de dat-os multivariantes es describir cada variable y 
comprender la estructura de dependencia que existe ent-re ellas. Este analisis se presenta 
en el capi'tulo 3. Siempre que sea posible conviene utilizar tecnicas graficas para resumir y 
representar la informacion cont-enida en los datos, y analizar la forma de medir las variables 
para obtener una representation lo mas simple posible. Est-os problemas se est-udian en el 
capi'tulo 4. Est-os dos capi'tulos ext-ienden al caso multivariante la description habitual de 
dat-os estadi'st-icos estudiada en los text-os basicos de Estadi'st-ica. 

El problema de resumir o condensar la informacion de un conjunto de variables se abor- 
da, desde el punto de vista descriptivo, construyendo una nuevas variables indicadoras que 
sint-et-icen la information contenida en las variables originales. Existen distint-os met-odos ex- 
ploratorios para conseguir este objet-ivo. Con variables continuas, el metodo mas utilizado se 
conoce como componentes principales, y se estudia en el capi'tulo 5. Los componentes prin- 
cipals nos indican las dimensiones necesarias para representar adecuadamente los dat-os. 
Con ellos podemos hacer grahcos de los dat-os en pocas dimensiones, con minima perdida de 
informacion, para ent-ender su estructura subyaceut-e. 

El analisis de componentes principales puede generalizarse en dos direcciones: la primera 
cuando los dat-os disponibles no corresponden a variables sino a similitudes o semejanzas entre 
element-os. Int-eresa ent-onces investigar cuant-as dimensiones tienen estas similitudes, este es 
el objet-ivo de las escalas multidimensionales, que se estudian en el capi'tulo 6. La segunda 
generalization de componentes principales es para dat-os cualit-at-ivos, que se presentan en una 
tabla de contingencia, y esto conduce al analisis de correspondences, que se presenta en el 
capi'tulo 7. Esta t-ecnica permite ademas cuantificar de forma objet-iva atributos cualit-at-ivos. 
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El problema descriptivo de investigar si los element-os de nuestra muestra forman un grupo 
homogeneo o no, y, en caso de que existan varios grupos de datos identical - que element-os 
pert-enecen a cada uno, se aborda con las herramientas de metodos de agrupamiento (cluster 
methods en ingles). Por ejemplo, supongamos que tenemos una encuesta de los gast-os en 
los hogares espanoles. Podemos encontrar que, de manera natural, la estructura de gastos 
es distint-a en los hogares unipersonales que en los que conviven adultos con ninos pequenos, 
y la relation entre dist-int-as variables del gast-o puede ser dist-int-a en ambos. Conviene, 
en est-os casos, dividir la muestra en grupos de observaciones homogeneas y est-udiarlos 
separadament-e. En otros casos el analisis de la homogeneidad de los dat-os tiene por objet-o 
construir tipologi'as: de consumidores, de art-ist-as por su utilization del color, de product-os, 
o del tipo de consult-as en una pagina web. Est-os met-odos se estudian en el capi'tulo 8. 

Las tecnicas descript-ivas para resumir, condensar y clasihcar dat-os y relacionar variables 
se conocen a veces como tecnicas de exploration de datos multivariantes, y se han pop- 
ularizado en los ultimos anos en ingenierfa y ciencias de la computation con el nombre de 
minerfa de datos, nombre que indica la capacidad de est-as tecnicas para extraer informa- 
tion a partir de la materia prima dat-os. Los capi'tulos 3 al 8 forman pues un curso basico de 
minerfa de datos. Sin embargo est-as herramientas no permit-en direct-ament-e obtener con- 
clusiones generates respecto al proceso o sist-ema que genera los dat-os. Para ello necesitamos 
los metodos present-ados en la segunda parte del libro, que comprende los capft-ulos, 9 al 
16, y allf se aborda el objet-ivo mas ambicioso de crear conocimiento respecto al problema 
mediant-e un modelo estadfst-ico. 

La construction de un modelo estadfst-ico requiere el concepto de probabilidad y las her- 
ramientas basicas para la construction de modelos para varias variables se exponen en el 
capi'tulo 9. La construction del modelo requiere estimar los parametros del modelo a partir 
de los dat-os disponibles, y contrastar hipotesis respecto a su estructura. Los fundament-os 
de la inferencia multivariante se est-udian en el capi'tulo 10. Algunos problemas de esti- 
mation multivariante pueden formularse como estimation con valores ausent-es, y un met-odo 
eficiente para llevar a cabo est-a est-imacion, el algoritmo EM, se presenta en el capi'tulo 
11. Est-e capi'tulo aborda tambien la estimation (1) permitiendo la posibilidad de que una 
pequena fraction de los dat-os incluyan errores de medida o dat-os heterogeneos; (2) incorpo- 
rando ademas information a priori respecto a los parametros. En el primer caso t-enemos la 
estimation robust-a y en el segundo la Bayesiana (que, como la clasica, puede ademas hac- 
erse robust-a). Est-e capi'tulo considera ademas el problema de seleccionar el mejor modelo 
explicat-ivo entre varios posibles. 

Los modelos para general - conocimiento mediant-e una reduction del numero de variables 
se conocen como modelos de analisis factorial, y pueden verse como una generalization de 
los component-es principales. Si podemos reemplazar un conjunto amplio de variables por 
unos pocos fact-ores o variables lat-entes, no observables, que permiten prever las variables 
originates hemos aumentado nuestro conocimiento del problema. En primer lugar, descubri- 
mos el mecanismo generador de los dat-os, en segundo podemos realizar predicciones respecto 
a datos no observados pero generados por el mismo sist-ema. Est-e es el objeto del analisis 
factorial que se present-a en el capi'tulo 12. 

El problema de la homogeneidad se aborda desde el punt-o de vist-a inferential segun dos 
punt-os de vist-a principales. El primero es el problema de clasificacion o discriminacidn: 
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Objet.ivos 

Enfoque descriptivo (information) 

Enfoque inferencial (conocimienb 

Resumir los dat-os 

Description de dat-os (Cap. 3 y 4) 

Const.r. de modelos (Cap 9, 10 y. 

Obtener indicadores 

Componentes principals (Cap. 5) 

Analisis Factorial (Cap. 12) 


Escalas mult.id. (Cap. 6) 



Analisis de Correspon.(Cap. 7) 


Clasificar 

Analisis de Conglomerados (Cap. 8) 

A. Discriminante (Cap. 13 y 14) 

Construir grupos 

Analisis de Conglomerados (Cap. 8) 

Clas. con mezclas (Cap 15) 

Relacionar Conj. variab. 

Regres. mul.(Cap 3) y Mult. (Cap 16) 

Correlation canonica (Cap. 16) 


Tab la 1.1: Clasificacion de los metodos multivariantes estudiados en este libro 


conocemos que los dat-os pueden provenir de una de dos (o mas) poblaciones conocidas y se 
desea clasificar un nuevo dato en una de las poblaciones consideradas. Por ejemplo, se desea 
clasificar declaraciones de impuestos como correctas o fraudulent, as, personas como enfermos 
o sanos, empresas como solventes o no, billetes por su valor en una maquina aut.omat.ica, 
cartas escritas a rnano por su codigo postal en un maquina clasificadora, preguntas a un 
contestador telefonico por su contenido. Este es el objet.ivo de los metodos de analisis 
discriminante presentados en los capi'tulos 13 y 14. 

El segundo punto de vista es investigar si los datos disponibles ban sido generados por 
una sola o varias poblaciones desconocidas. Los metodos para clasificar las observaciones se 
conocen como metodos de clasificacion mediante mezclas, y se est-udian en el capi'tulo 15. 
Est-os metodos generalizan los metodos de agrupamiento estudiados desde el punto de vista 
descriptivo. 

El problema inferencial multivariante de relacionar variables aparece cuando estas se 
separan en dos conjuntos, y tiene varias variantes: 

(1) Analisis de la varianza multivariante: el primero incluye variables cualitat.ivas y 
el segundo variables continuas, y queremos ver el efecto de las cualitat.ivas sobre las del 
segundo grupo. Por ejemplo, observamos en distintas clases de una universidad, definidas 
por variables cualitat.ivas como titulacion, curso etc, varias variables que miden los result.ados 
de las encuestas de evaluation docente y se desea investigar como los result.ados varfan en 
las distintos clases. Este t.ema se estudia en el capi'tulo 10 como una aplicacion direct.a de 
los contrastes estadi'st.icos multivariantes 

(2) Regresion multivariante: el primer conjunto incluye variables continuas o discretas y 
queremos utilizarlas para explicar las variables continuas del segundo grupo. Por ejemplo, 
queremos relacionar un conjunto de variables de inversion con un grupo de variables resultado 
en distintas empresas. Estos metodos se presentan brevemente en el capi'tulo 16. 

(3) Correlacion canonica: queremos encontrar indicadores del primer grupo que explique 
lo mas posible a los indicadores de las variables del segundo grupo. El numero de relaciones 
independient.es entre los indicadores nos informa respect.o a la dimension de la relation. Por 
ejemplo, queremos buscar indicadores de la inversion en empresas, medida por un conjunto 
de variables, que explicen indicadores de resultado, construidos tambien como resumen de un 
conjunto de variables de result.ados economicos. Estos metodos se desarrollan en el capi'tulo 
16. 

La tablal.l resume la clasificacion de metodos multivariantes estudiados en el libro. 
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1.3 PROGRAMAS DE ORDENADOR 

Es impensable aplicar el analisis multivariante sin utilizar el ordenador y recomendamos 
al lector que reproduzca los ejemplos y realice los ejercicios del libro con cualquiera de los 
programas estadi'sticos disponibles. En el libro se han utilizado, por orden de dificultad,los 
siguientes: 

(1) STATGRAPHICS que permite aplicar las herramientas basicas contenidas en el libro, 
teniendo buenas capacidades graficas faciles de usar. 

(2) MINITAB es un programa mas complet-o, tambien de facil manejo. Es mas completo 
que el anterior y mas comodo para la manipulation de datos y la lectura de ficheros en 
distint-os format-os. 

(3) SPSS es un programa mas avanzado y con mejores capacidades para el manejo de 
datos. Esta dirigido a invest-igadores sociales que desean analizar grandes encuestas con 
variables de distint-os tipos y permite mucha flexibilidad en la entrada de los dat-os y en su 
manipulation, asf como en la presentation de los resultados. Ademas este programa t-iene 
algoritmos de calculo bastant-e fiables y muy contrast-ados con distint-as aplicaciones. 

(4) S-PLUS est-a dirigido a un usuario con buena formacibn estadi'st-ica, e incluye muchas 
rutinas que el lector puede combinar para hacer analisis de dat-os mas a su medida. Puede 
programarse tambien facilmente para implantar nuevos desarrollos, y contiene los metodos 
mas modernos que t-odavi'a no se han implant-ado en SPSS. El programa R es similar a 
S-PLUS y tiene la ventaja de ser de distribution gratuita. 

(5) MATLAB y GAUSS son programas con excelentes capacidades para la manipulation 
matricial, por lo que son muy recomendables para los lect-ores que quieran escribir sus propios 
programas y probar analisis nuevos, no incluidos en los paquetes tradicionales. Tienen la 
ventaja de la flexibilidad y el inconvenient-e de que son menos automaticos para analisis 
tradicionales. 

Ademas de estos programas existen ot-ros muchos paquetes estadi'sticos, como SAS, 
BMDP, STATA, etc, que estan tambien bien adapt-ados para aplicar las t-ecnicas multi- 
variant-es descritas en este libro, pero sobre los que el autor t-iene menos experiencia directa. 


1.4 UN POCO DE HISTORIA 

El primer metodo para medir la relation estadi'st-ica ent-re dos variables es debido a Francis 
Galton (1822-1911), que introduce el concept-o de recta de regresion y la idea de correlation 
ent-re variables en su libro Natural Inheritance , publicado en 1889 cuando Galt-on t-em'a 67 
anos. Est-os descubrimientos surgen en sus invest-igaciones sobre la t-ransmision de los rasgos 
hereditarios, mot-ivadas por su int-eres en contrastar empi'ricament-e la t-eon'a de la evolution 
de las especies, propuesta por su primo Charles Darwin en 1859. El concepto de correlation 
es aplicado en las ciencias sociales por Francis Edgeworth (1845-1926), que estudia la normal 
multivariante y la matriz de correlation. Karl Pearson (1857-1936), un distinguido estadi'st-ico 
britanico creador del famoso cont-raste ji-cuadrado que lleva su nombre, obtuvo el estimador 
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del coeficient-e de correlacion en muest-ras, y se enfrentd al problema de determinar si dos 
grupos de personas, de los que se conocen su medidas fi'sicas, pertenen a la misma raza. 
Este problema intrigo a Harold Hotelling (1885-1973), un joven matematico y economista 
americano, que, atrai'do por la Estadi'stica, entonces una joven disciplina emergente, viaja en 
1929 a la est-acion de investigation agn'cola de Rothamsted en el Reino Unido para trabajar 
con el ya celebre cienti'fico y figura dest-acada de la estadi'stica, R. A. Fisher (1890-1962). 
Hotelling se intereso por el problema de comparar tratamientos agn'colas en funcion de 
varias variables, y descubrio las semejanzas entre este problema y el planteado por Pearson. 
Debemos a Hotelling (1931) el contrasts que lleva su nombre, que permite comparar si dos 
muestras multivariantes vienen de la misma poblacion. A su regreso a la Universidad de 
Columbia en Nueva York, Truman Kelley, profesor de pedadogi'a en Harvard, planted a 
Hotelling el problema de encontrar los factores capaces de explicar los resultados obtenidos 
por un grupo de personas en test de inteligencia. Hotelling (1933) inventd los component-es 
principales, que son indicadores capaces de resumir de forma optima un conjunto amplio 
de variables y que dan lugar posteriormente al analisis factorial. El problema de obtener el 
mejor indicador resumen de un conjunto de variables habi'a sido abordado y resuelto desde 
otro punto de vista por Karl Pearson en 1921, en su trabajo para encontrar el piano de mejor 
ajust-e a un conjunto de observaciones astrondmicas. Posteriormente, Hotelling generaliza 
la idea de componentes principales introduciendo el analisis de correlaciones canonicas, que 
permiten resumir simultaneamente dos conjunt-os de variables. 

El problema de encontrar factores que expliquen los dat-os fue planteado por primera vez 
por Charles Spearman (1863-1945), que observo que los ninos que obtem'an buenas puntua- 
ciones en un test de habilidad mental tambien las obtem'an en otros, lo que le llevo a postular 
queeran debidas a un factor general de inteligencia, el factor g (Spearman, 1904). L. Thur- 
stone (1887-1955) estudio el modelo con varios factores y escribio uno de los primeros textos 
de analisis factorial (Thurstone, 1947). El analisis factorial fue considerado hast-a los anos 60 
como una tecnica psicomet-rica con poca base estadi'stica, hast-a que los trabajos de Lawley y 
Maxwell (1971) establecieron formalmente la estimacion y el contrast-e del modelo factorial 
bajo la hipot-esis de normalidad. Desde entonces, las aplicaciones del modelo factorial se 
han ext-endido a t-odas las ciencias sociales. La generalization del modelo factorial cuando 
t-enemos dos conjuntos de variables y unas explican la evolution de las ot-ras es el modelo 
LISREL, que ha sido ampliament-e estudiado por Joreskov (1973), entre otros. 

La primera solucion al problema de la clasibcacibn es debida a Fisher en 1933. Fisher 
inventa un met-odo general, basado en el analisis de la varianza, para resolver un problema 
de discrimination de craneos en antropologfa. El problema era clasihcar un craneo encon- 
trado en una excavation arqueologica como perteneciente a un homi'nido o no. La idea de 
Fisher es encontrar una variable indicadora, combination lineal de las variables originales de 
las medidas del craneo, que consiga maxima separation entre las dos poblaciones en consid- 
eration. En 1937 Fisher visita la India invit-ado por P. C. Mahalanobis (19***), que habi'a 
invent-ado la medida de dist-ancia que lleva su nombre, para invest-igar las diferent-es razas 
en la India. Fisher percibe enseguida la relation entre la medida de Mahalanobis y sus 
resultados en analisis discriminante y ambos consiguen unihcar est-as ideas y relacionarlas 
con los resultados de Hotelling sobre el contrast-e de medias de poblaciones multivariantes. 
Unos anos despues, un est-udiant-e de Mahalanobis, C. R. Rao, va a extender el analisis de 
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Fisher para clasificar un elemento en mas de dos poblaciones. 

Las ideas anteriores se obtienen para variables cuantitativas, pero se aplican poco de- 
spues a variables cualitativas o atributos. Karl Pearson habfa introducido el estadfstico que 
lleva su nombre para contrastar la independencia en una tabla de contingencia y Fisher, en 
1940, aplica sus ideas de analisis discriminante a estas tablas. Paralelamente, Guttman, en 
psicometria, presenta un procedimiento para asignar valores numericos (construir escalas) a 
variables cualitativas que esta muy relacionado con el metodo de Fisher. Como este ulti- 
mo trabaja en Biometn'a, mientras Guttman lo hace en psicometria, la conexion entre sus 
ideas ha tardado mas de dos decadas en establecerse. En Ecologfa, Hill (1973) introduce 
un metodo para cuantificar variables cualitativas que esta muy relacionado con los enfoques 
anteriores. En los anos 60 en Francia un grupos de estadi'sticos y lingiiistas estudian tablas 
de asociacion entre textos literarios y J. P. Benzecri inventa el analisis de corresponden- 
cias con un enfoque geometrico que generaliza, y establece en un marco comiin, muchos 
de los resultados anteriores. Benzecri visit-a la Universidad de Princeton y los laboratories 
Bell donde Carroll y Shepard estan desarrollando los metodos de escalado multidimensional 
para analizar datos cualit-at-ivos, que habfan sido iniciados en el campo de la psicometria 
por Torgeson (1958). A su vuelta a Francia, Benzecri funda en 1965 el Departamento de 
Estadfstica de la Universidad de Pan's y publica en 1972 sus metodos de analisis de datos 
cualitat-ivos mediant-e analisis de correspondencias. 

La aparicion del ordenador transforma radicalment-e los metodos de analisis multivari- 
ante que experimentan un gran crecimiento desde los anos 70. En el campo descriptivo los 
ordenadores hacen posible la aplicacion de metodos de clasihcacidn de observaciones (anali- 
sis de conglomerados o analisis cluster) que se basan cada vez mas en un uso extensivo del 
ordenador. MacQueen (1967) introduce el algoritmo de de k-medias. El primer ajust-e de 
una distribution mezclada fue realizado por el metodo de los moment-os por K. Pearson y el 
primer algortimo de estimation multivariante es debido a Wolfe (1970). Por otro lado, en el 
campo de la inferencia, el ordenador permite la estimation de modelos sobst-icados de mezclas 
de distribuciones para clasihcacidn, tant-o desde el punt-o de vist-a clasico, mediant-e nuevos 
algoritmos de estimation de variables ausent-es, como el algoritmo EM, debido a Dempster, 
Laird y Rubin (1977), como desde el punto de vist-a Bayesiano, con los metodos modernos 
de simulation de cadenas de Markov, o metodos MC 2 ( Markov Chain Mont-e Carlo). 

En los ultimos anos los metodos multivariantes estan sufriendo una transformation en dos 
direcciones: en primer lugar, las grandes masas de datos disponibles en algunas aplicaciones 
estan conduciendo al desarrollo de metodos de aproximacibn local, que no requieren hipote- 
sis generales sobre el conjunto de observaciones. Este enfoque permite construir indicadores 
no lineales, que resumeu la informacion por tramos eu lugar de iuteutar una aproximacibn 
general. En el analisis de grupos, este enfoque local esta obt-eniendo tambien vent-ajas apre- 
ciables. La segunda direction prescinde de las hipotesis sobre las distribuciones de los dat-os 
y cuantibca la incertidumbre medient-e metodos de computation intensiva. Es esperable que 
las crecientes posibilidades de calculo proporcionadas por los ordenadores actuales amplie el 
campo de aplicacion de estos metodos a problemas mas complejos y generales. 



1.5. LECTURAS COMPLEMENTARY AS 


21 


1.5 LECTURAS COMPLEMENTARIAS 

Existe una excelente coleccion de textos de analisis multivariante en lengua inglesa. Entre 
ellos destacaremos Flury (1997), Johnson and Wichern (1998), Mardia, Kent y Bibby (1979), 
Gnandesikan (1997) y Seber (1984). Estos libros combinan la presentacion de resultados 
teoricos y ejemplos y cubren un material similar al aquf expuesto. Textos mas aplicados son 
Dillon y Goldstein (1984), Flury y Riedwyl (1988) y Hair et al (1995). En espanol, Cuadras 
(1991), es un excelente texto. Otras referencias de interes son Escudero (1977), Lebart- et 
al (1985) y Batista y Martinez (1989). Hand et al (2000) es una buena referenda para la 
relacion entre minerfa de datos y estadi'stica. 

El libro de Krzanowski y Marriot (1994, 1995) contiene numerosas referencias historicas 
del desarrollo de estos metodos. Otros textos mas especi'ficos que comentan sobre los orf- 
genes histbricos de una tecnica y presentan abundantes regerencias son Jackson (1991) para 
componentes principales, Gower and Hand (1996), para los escalogramas multidimension- 
ales, Greenacre (1984) para el analisis de correspondencias, Hand (1997) para los metodos de 
clasificacion, Harman (1980) y Bartholomew (1995) para el analisis factorial, Bollen (1989) 
para el modelo LISREL, McLachlan y Basford (1988) para los metodos de clasihcacion me- 
diante mezclas y Schafer (1997) para el algoritmo EM y los nuevos metodos MC 2 de calculo 
intensivo. Efron y Tibshirani (1993) presentan interesantes ejemplos de las posibilidades del 
bootstrap para el analisis multivariante. 
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2.1 INTRODUCTION 

La information de partida en el analisis multivariante es una t-abla de datos correspondient-e a 
distintas variables medidas en los elementos de un conjunto. La manipulacion de estos datos 
se simplifica mucho utilizando el concepto de matriz y su propiedades, que se presentan en 
este capi'tulo. La descripcion de datos parte de las posiciones de las observaciones como 
puntos en el espacio y las ideas que aqui se presentan pueden ayudar al lector a desarrollar 
la intuition geometrica, de gran ayuda para visualizar y comprender la estructura de los 
procedimientos del analisis multivariante. Por esta razon, recomendamos al lector dedicar 
el tiempo necesario para comprender los concept-os basicos present-ados en este capi'tulo. 
Su estudio puede abordarse con dos objet-ivos distintos. Para los lect-ores interesados en 
las aplicaciones y sin formation previa en algebra lineal, recomendamos concentrarse en las 
secciones 2.1, 2.2 y 2.3 y la introduction a la section 2.4. Para los lectores que hayan seguido 
ya un curso de algebra, est-e capi'tulo puede servir de repaso de los concept-os basicos y de 
profundizacion en el uso de valores y vect-ores propios y proyecciones ortogonales, que forman 
la base de muchas de las t-ecnicas est-udiadas en este libro. 

El concept-o principal de este capi'tulo es el concepto de vector. Un conjunto de n datos 
numericos de una variable puede represent-arse geometricament-e asociando cada valor de la 
variable a una dimension del espacio n dimensional, obt-eniendo un punto en ese espacio, 
y tambien el vector que une el origen con dicho punto. Est-a analogi'a entre variables y 
vect-ores es util, porque los metodos de description est-adi'st-ica de una variable tienen una 
correspondencia clara con las operaciones basicas que realizamos con vectores. 

Cuando en lugar de medir una variable en n elementos observamos en cada element-o los 
valores de p variables, los dat-os pueden disponerse en una t-abla rectangular con p columnas 
y n filas, de manera que cada columna t-enga los valores de una variable y cada fila los 
valores de las p variables en cada elemento. Si consideramos cada columna como un vector 
n dimensional, est-e conjunto de p vectores se denomina matriz. Asf como la description 
univariante se asocia a operar con el vector de dat-os, la description de dat-os multivariantes 
se asocia geometricament-e a operar con la matriz de dat-os. En particular, el estudio de la 
variabilidad y la dependencia lineal entre las p variables conduce al concepto de matrices 
cuadradas, que son aquellas que contienen el mismo numero de filas que de columnas. Las 
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matrices cuadradas son utiles para representar, por ejemplo, las varianzas y covarianzas 
o correlaciones entre las p variables, y sobre ellas se definen ciertas funciones escalares, 
como el deter min e, rite y la traza, que veremos tienen una clara interpretacion estadfstica: 
el determinante es una medida de la dependencia lineal y la traza de la variabilidad, del 
conjunto de las variables. Ademas, las matrices cuadradas tienen ciertas propiedades basicas, 
asociadas al tamano y la direccion de los vectores que la forman. El tamano de una matriz 
esta relacionada con sus valores propios, y las direcciones con los vectores propios. 

La estimacion de parametros mediante una muestra en modelos lineales puede verse 
geometricamente como la proyeccion ortogonal del vector (o vectores) que representa la 
muestra sobre un subespacio. Por esta razon se presentan con det-alle algunos resultados 
de proyecciones ortogonales que no suelen incluirse en textos introductorios de algebra lin- 
eal. Finalmente, este capi'tulo incluye algunos resultados basicos de calculo diferencial con 
vectores y matrices. 

Para favorecer el aprendizaje del material de este capi'tulo al estudiante que se enfrenta 
a el por primera vez hemos incluido ejercicios despues de cada seccion, y recomendamos 
al lector que intente resolver los. Las secciones marcadas con un aster l'st-ico son algo mas 
avanzadas y pueden salt-arse en una primera lectura sin perdida de continuidad. El lector 
puede encontrar una explicacion mas det-allada de los conceptos aquf expuest-os en cualquier 
t-ext-o de algebra matricial. Un libro claro en espanol es Arvesu, Alvarez y Marcellan (1999), 
y en ingles Hadi (1996) presenta una introduccion muy sencilla y facil de seguir con pocos 
conocimient-os basicos. Searle (1982) y Basilevsky (1983) estan especialmente orient-ados a 
las aplicaciones estadi'sticas. Noble y Daniel (1977) es una buena introduccion de caracter 
general. 

2.2 VECTORES 

Geometricamente un dat-o numerico puede represent-arse como un punto en un espacio de 
dimension uno. Si elegimos una recta con origen y direccion (posit-iva o negat-iva) definidos, 
podemos asociar a cada punto de la recta la magnitud del segmento que une el origen con 
el punto. Un conjunt-o de n dat-os numericos puede representarse como n punt-os sobre una 
recta pero tambien, y est-a representacion es muy util, como un punto en el espacio de n 
dimensiones. En dicho espacio podemos tambien asociar al conjunto de dat-os el vector que 
une el origen de coordenadas con dicho punto. La longitud de un vector se denomina norma. 

Existe una correspondencia entre las propiedades del conjunto de dat-os y las propiedades 
del vector asociado. La media de los dat-os es proporcional a la proyeccion del vector de dat-os 
sobre la direccion del vector constant-e (que se define como el que tiene t-odas las coordenadas 
iguales). La desviacion ti'pica es la dist-ancia promedio entre el vector de dat-os y el vector 
const-ant-e. La dependencia lineal entre dos variables se mide por la covarianza. El concept-o 
analogo vectorial es el de producto escalar, que es la herramienta principal para est-udiar la 
posicion en el espacio de dos vectores. Con variables estandarizadas la covarianza se reduce 
al coeficient-e de correlacion, que es equivalent-e al product-o escalar de dos vectores de norma 
unitaria. 

Cuando consideramos varios vectores, por ejemplo p variables medidas sobre n element-os 
de una poblacion, el concept-o principal es la nocion de dependencia lineal. La dependencia 
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lineal establece cuant-as variables realment-e distintas t-enemos. Por ejemplo, si en un conjunto 
de variables una de ellas representa salarios en euros y otra los mismos salarios pero medidos 
en miles de euros, aunque ambas variables no sean identicas (la primera es siempre mil 
veces mas grande que la segunda), es claro que ambas miden la misma caracten'st-ica y 
contienen la misma informacion: las dos variables son linealmente dependientes, ya que 
conocida una podemos determinar el valor de la otra. Generalizando esta idea, diremos que 
p variables son linealmente dependientes si podemos obtener los valores de una cualquiera 
de ellas mediante una combinacidn lineal del resto. Por ejemplo, las tres variables, numero 
de hombres, numero de mujeres y numero de personas (que es la suma de las anteriores), 
son linealmente dependientes, ya que podemos calcular el valor de cualquiera conocidos los 
valores de las otras dos. 

2.2.1 Definiciones basicas 

Un conjunto de n numeros reales x puede representarse como un punto en el espacio de n 
dimensiones, P” . Definiremos el vector x como el segmento orient-ado que lin e el origen de 
coordenadas con el punto x. La direction es importante, porque no es lo mismo el vector x 
que el — x. Con esta correspondencia, a cada punto del espacio en le asociamos un vector. 
Por ejemplo, en la figura 2.1 se representa dos vectores en el piano (K 2 ): el vector x =( 2 ), y 
el vector y = ( () ' ) . En adelant-e, represent aremos un vector mediante x, para diferenciarlo del 
escalar x, y llamaremos al espacio de t-odos los vectores de n coordenadas o componentes. 
En particular, un conjunto de numeros con t-odos los valores iguales se representara por un 
vector constante, que es aquel con t.odas sus coordenadas iguales. Un vector constante 
es de la forma cl, donde c es cualquier constante y 1 el vector con t-odas sus coordenadas 
iguales a la unidad. 

En Estadfst-ica podemos asociar a los valores de una variable en n element-os un vector 
en 9?™, cuyo componente iesimo es el valor de la variable en el elemento i. Por ejemplo, si 
medimos las edades de tres personas en una clase y obt-enemos los valores 20, 19 y 21 anos, 
esta muestra se representa por el vector tridimensional 

" 20 ' 

x = 19 

21 

La suma (o diferencia) de dos vectores x, y, ambos en 'IP' , se define como un nuevo 
vector con componentes iguales a la suma (diferencia ) de los componentes de los sumandos: 

x 1 yi xi + yi 

x + y = ; + ; ; 

•En Un E n -\- y n 

Es inmediato comprobar que la suma de vectores es asociat-iva (x + (y + z) = (x + y) + z) 
y conmutativa (x + y = y + x). 

La suma de dos vectores corresponde a la idea intuitiva de trasladar un vector al ext-remo 
del ot-ro y construir la li'nea que va desde el origen del primero al extremo del segundo. Por 
ejemplo, la suma de los vectores x =(i^) e y =(p 1 ),en la figura 2.1, es el vector z =( 2 ). 
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Figura 2.1. Suma de dos vectores 

La operation suma (resta) de dos vectores da lugar a otro vector y estadfsticamente 
corresponde a general’ una nueva variable como suma (resta) de otras dos anteriores. Por 
ejemplo, si x representa el numero de trabajadores varones en un conjunto de empresas e y 
el numero de trabajadoras, la variable x + y representa el numero total de trabajadores y la 
variable x — y la diferencia entre hombres y mujeres en cada empresa. 

El producto de una constante por un vector, es un nuevo vector cuyos componentes 
son los del vector initial multiplicados por la constante. 

kx i 

z = kx = ; 

kx n 

Multiplicar por una constante equivale a un cambio en las unidades de medicion. Por 
ejemplo, si en lugar de medir el numero de trabajadores en unidades (variable x) lo hacemos 
en centenas (variable z) entonces la variable z es igual a x/100. 

Llamaremos vector transpuesto x', de otro x, a un vector con los mismos componentes, 
pero escritos ahora en fila: 

X = (xi, ...,x n ). 

A1 transponer un vector columna se obtiene un vector fila. Generalmente los vectores fila 
se utilizan para describir los valores de p variables distintas en un mismo elemento de una 
poblacion. 

El producto escalar o interno de dos vectores x, y, ambos en ! ft n , que escribiremos 
x'y o y'x. es el escalar obtenido al sumar los productos de sus componentes. 

n 

x'y = y'x = y^x,y t . 

i= 1 

Se llamara norma o longitud de un vector x, a la rafz cuadrada del producto escalar 
x'x. Se escribe 1 1 x 1 1 : 
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La norma es la longitud del segment o que une el origen con el punto x. Por ejemplo, la 
norma del vector x en la figura 2.1 es 


xll = V3 2 + 2 2 = VlS 


que corresponde a la longitud de la hipotenusa en el triangulo rectangulo formado por el 
vector y sus proyecciones sobre los ejes. 

El producto escalar de dos vectores puede calcularse tambien como el producto de las 
normas de los vectores por el coseno del angulo que forman. Para ilustrar este concepto 
consideremos la figura 2.1 donde se representan los vectores x = (“) y y =(“). Observemos 
que el producto escalar es x'y =a 2 y que este mismo resultado se obtiene multiplicando la 
norma de ambos vectores, ||x|| = a y ||y|| = V a 2 + c 2 por el coseno del angulo 9 que forma, 
dado por a/ Va 2 + c 2 . Observemos que el producto escalar puede tambien expresarse como el 
producto de la norma de un vector por la proyeccion del otro sobre el. Si uno de los vectores 
tiene norma uno, el producto escalar es directamente la proyeccion sobre el del otro vector. 

Generalizando esta idea, se define el angulo entre dos vectores x, y por la relacion: 


cos 9 


x'y 


Si dos variables tiene media cero, el coseno del angulo que forman dos vectores es su coefi- 
ciente de correlacion. Como cos 6 < 1, se demuestra en general que: 


xy| < ||x|| ||y 


que se conoce como la desigualdad de Schwarz. 

Dos vectores son ortogonales, o perpendiculares, si y solo si su producto escalar es cero. 
Por la definicion de angulo 


x'y = ||x|| ||y|| cos 6, 


siendo 9 el angulo que forman los vectores. Si 9 = 90° el coseno es cero y tambien lo sera el 
producto escalar. 
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Figura 2.1: Coseno del angulo entre dos vectores 


El producto escalar tiene una clara interpretacion estadi'stica. Para describir una variable 
tomamos su media. Para describir un vector podemos tomar su proyeccion sobre el vector 
constante. El vector constante de modulo unitario en dimension n es ^=1, y la proyeccion 
de x sobre este vector ^=]/x = X] Xi/y/n = Xyfn. El vector constante resultante de esta 
proyeccion es ^=1 (xy/n) =x\. Por tanto, la media es el escalar que define el vector obtenido 
al proyectar el vector de datos sobre la direccion constante. Tambien puede interpretarse 
como la norma estandarizada del vector obtenido al proyectar los datos en la direccion del 
vector constante, donde para estandarizar la norma de un vector dividiremos siempre por 
y/n, siendo n la dimension del espacio. 

La variabilidad de los datos se mide por la desviacion tfpica, que es la distancia entre el 
vector de datos y el vector constante. La proyeccion del vector de datos sobre la direccion 
del vector constante produce el vector xl, y la norma del vector diferencia, x— xl, mide la 
distancia entre el vector de datos y el vector constante. Tomando la norma estandarizada, 
dividiendo por la rai'z de la dimension del espacio 


lx — xl II = 


TX®* - x ) 2 


n 


n 


La medida de dependencia lineal entre dos variables, x, y, es la covarianza. La covarianza 
es el producto escalar estandarizado de los dos vectores medidos en desviaciones a la media, 
o tomando sus diferencias respecto al vector constante. Si promediamos el producto escalar 
de estos vectores 


1 

n 


(x-xl)'(y-yl) 


EOi 


x)(yi-y) 

n 


se obtiene directamente la covarianza. Para variables con media cero, el producto escalar 
promedio de los dos vectores que representan sus valores normalizado es directamente la 
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covarianza. Para variables estandarizadas, de media cero y desviacion ti'pica unidad, la 
covarianza es el coeficiente de correlation. Para vectores de norma unitaria, el product-o 
escalar es el coseno del angulo que forman, que es la interpretation geometrica del coeficiente 
de correlation. La implication estadfstica de ortogonalidad es incorrelacion. Si dos variables 
son ortogonales, es decir los vectores que las caracterizan forman un angulo de 90 grados, 
llamando r al coeficiente de correlation como r = cos 9 = 0, las variables est-an incorreladas. 

2.2.2 Dependencia Lineal 

Un conjunto de vectores xi, ..., x p es linealmente dependiente si existen escalares ci, .... c p , 
no t-odos nulos, tales que: 


ciXi + ... + c p x p = 0 

donde 0 representa el vector nulo que tiene t-odos los componentes iguales a cero. En par- 
ticular el vector de ceros, 0, es siempre linealmente dependiente de cualquier ot-ro vector x 
no nulo. En efecto, aplicando la definition siempre podemos escribir para cualquier escalar 
c no nulo 


Ox+cO = 0 

Intuitivamente, si los vectores son linealmente dependientes podemos expresar alguno de 
ellos como combination lineal de los demas. Por ejemplo, supuest-o q ^ 0 y llamando 
cii = q/ci , t-enemos 


xi = a 2 x 2 + . . . + a p x p . 

Si un conjunto de vectores no es linealmente dependiente diremos que los vectores son lin- 
ealmente independientes. En el espacio ! fU el numero maximo de vectores linealmente 
independientes es p. En efecto, si t-enemos un conjunto de p + h vectores donde existen, al 
menos, p linealmente independientes (x,, i = 1, ...,p) podemos expresar cualquier otro vector 
del conjunto, x p+1 , como 

p 

Xp+l ^ ^ 
i = 1 

y resolviendo est-e sist-ema de p ecuaciones y p incognitas obtendremos los coeficient-es a, . 
Por tanto, el maximo numero de vectores linealmente independientes es p. 

En Est-adi'st-ica un conjunto de vectores linealmente independientes corresponde a un 
conjunto de variables que no est-an relacionadas linealmente de forma exact-a. Por ejemplo, 
si dos variables miden la misma magnitud pero en unidades distint-as seran linealmente 
dependientes. Tambien seran linealmente dependientes si el conjunto de variables incluye 
una que se ha generado como una combination lineal de las ot-ras (por ejemplo, t-enemos p 
variables que representan los precios en euros de p productos en n pai'ses de Europa (n > p) y 
se incluye tambien como variable p + 1 el precio ponderado de est-os product-os en los mismos 
pai'ses). 
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Dado un conjunto de p vectores linealmente independientes (xi, ..., x p ), en 5ft n (p < n). 
llamaremos espacio generado por este conjunto de vectores al espacio que contiene todos 
los vectores z, en ! ft n . que pueden expresarse como combinacion lineal de estos. El conjunto 
(xi, ...,x p ) se llama base generadora del espacio, o simplemente base del espacio. Si z 
pertenece a este espacio: 


Z = CiXi + ... + CpXp. 

Es facil comprobar que z estara en un espacio de dimension p: en efecto, podemos t-omar 
las primeras p coordenadas de z y obtener los coeficientes ci, ..., c p del sist-ema de p ecuaciones 
y p incognitas resultante. Las n — p coordenadas siguientes de z quedan determinadas, al 
estarlo los c t , por lo que, obviament-e, z solo t-iene p componentes independientes, estando, 
por lo tanto, en un espacio de dimension p. El espacio generado por un conjunto de variables 
incluye a todas las variables que pueden generarse como indices o combinaciones lineales de 
las originates. 

La dimension de un espacio E p se define como el numero de vectores linealmente inde- 
pendientes que lo generan. 

Diremos que un vector x es ortogonal a un subespacio E p si x es ortogonal a todo 
vector de E p , es decir, si y pertenece al subespacio E p , que escribiremos y (zE p . entonces: 

y'x = o. 

Llamaremos complemento ortogonal de un subespacio E p , de dimension p. y lo deno- 
taremos por C(E p ), al espacio que contiene todos los vectores ortogonales a E p . Entonces, 
si x GEp, y eC(E p ) se verifica x'y = 0. La dimension de C(E P ) sera n — p. En particular el 
complemento ortogonal del espacio generado por un vector que contiene todos los vectores 
ortogonales a el se denomina espacio nulo del vector. 

Ejercicios 2.2 

2.2.1 Dados los tres vectores 

a=©,b=g),c=(f) 

a) Represent ar los en el piano 'ft 2 . 

b) Calcular los vectores suma y diferencia de a y b, a±b. 

c) Calcular la norma de los tres vectores. 

d) Calcular los product-os escalares,ab , be, acy, Que podemos deducir de estos produc- 
t-os? 

e) Calcular la proyeccion del vector a sobre el b. 

f) Just-ificar si los tres vectores son linealmente independientes. Si no lo son, expresar 
uno cualquiera como combinacion lineal de los otros dos. 

2.2.2 En 5ft 3 se denomina base canonica a la formada por los vectores a = (1,0, 0/, b = (0,1, ()/, 
y c = (0, 0, 1). Se pide 

a) Expresar el vector d = (1,1,2/, como suma de los vectores de la base canonica. 

b) Calcular la proyeccion del vector d sobre cada uno de los vectores de la base canonica. 

c) Calcular el coseno del angulo eutre el vector d y los vectores de la base canonica. 

d) Indicar la dimension del espacio generado por el vector d y obtener una base del 
complemento ortogonal a ese espacio. 
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2.2.3 Dados los vectores en K 3 , a = (1, 0, 2)\ b = (1, 1, 2)', c = (2, 1, G) 7 . 

a) Calcular los vectores — b, a + c, y b + c 

b) Calcular la norma de los vectores, 4a y -2c. 

c) Calcular el producto escalar, ab y be. 

d) Calcular la proyeccion del vector a sobre el b. 

2.2.4 Calcular la dimension del espacio generado por los tres vectores del ejercicio anterior 

a) ^Pertenece el vector d = (—2, 0, —8) al espacio generado por estos tres vectores? Si 
es asf expresarlo como suina de una base del espacio. 

b) Indicar la dimension del espacio complemeuto ortogonal al generado por estos tres 
vectores. 

c) Encontrar una base del complemento ortogonal. 

d) Calcular el coseno de angulo entre los vectores dy a. 

2.2.5 Dados los tres vectores a = (1, 0, 0, 0, 1) / , b = (1, 1, 0, 0, 0/, y c = (0, 0, 0, 1, 1), en 

K 5 . 

a) Indicar la dimension del espacio generado por estos vectores y obtener un nuevo vector 
miembro de ese espacio. 

b) Calcular la dimension del espacio complemento ortogonal al generado por esos vectores. 

c) Calcular una base del espacio complemento ortogonal. 

d) Demostrar que los vectores a + b,a + c, yb + c tambien son linealmente independi- 
entes. 

2.2.6 Considerar las 9 variables que definen los productos alimenticios en los dat-os 
EUROALI del apendice de dat-os como 9 vectores en un espacio de dimension 25. Se pide: 

a) Calcular el vector proyeccion de cada vector sobre el vector de const-ant-es. 

b) Calcular la dist-ancia entre cada vector y el vector de const-ant-es. 

c) Calcular el product-o escalar de los vectores correspondientes a las variables CR y CB. 

d) Calcular el coseno del angulo que forman los vectores CR y CB. 

2.2.7 Considerar cada pai's de los dat-os EUROALI del apendice de dat-os como un vectores 
en un espacio de dimension 9. Se pide: 

a) Indicar si estos vectores son linealmente independientes 

b) Justificar que el numero maximo de vectores linealmente independientes es ocho. 

c) Calcular e interpretar el product-o escalar ent-re Austria y Belgica. 

d) Determinar el angulo que forman Austria y Belgica. 

e) Calcular la distancia de cada pai's al vector de const-ant-es. Interpretar el result-ado. 

2.3 MATRICES 

Para trabajar conjuntamente con p variables o vectores definimos el concepto de matriz. 
Una matriz es un conjunto de numeros dispuest-os en filas y columnas y puede verse como un 
conjunto de vectores columna o un conjunto de vectores fila. Diremos que una matriz t-iene 
dimensiones n x p si t-iene n filas y p columnas. Si en una matriz intercambiamos las filas por 
las columnas, se obt-iene una nueva matriz que se denomina la traspuesta de la primera. En 
particular, un vector columna de orden n es una matriz de dimensiones n x l(su traspuesta 
es un vector fila), y un escalar es una matriz de dimensiones 1 x 1 (e igual a su traspuesta). 
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La generalization del concepto de producto escalar entre dos vectores es el producto 
matricial, que se define como una nueva matriz que cont-iene todos los productos escalares 
entre los vectores fila de la primera matriz y los vectores columna de la segunda. Para que 
este producto sea posible la primera matriz tiene que tener tant-as colunmas como filas la 
segunda. Por la propia definition de deduce que este producto no es conmutativo. Dire- 
mos que premultiplicamos la matriz A por la B cuando realizamos el producto BA y que 
postmultiplicamos la A por la B si realizamos el producto AB. Un producto matricial que 
puede siempre aplicarse entre dos matrices cualesquiera es el producto de Kronecker. 

Una propiedad basica de una matriz es el rango, que indica el numero maximo de vectores 
fila o columna linealmente independientes que la forman. En una matriz de n filas y p 
columnas (n > p), sus p columnas pueden ser vectores linealmente independientes en P", 
pero sus n filas no, ya los vectores fila pertenecen a donde solo pueden existir p < n 
vectores fila linealmente independientes. El rango maximo de la matriz es p y cuando esto 
ocurre decimos que la matriz tienen rango completo. El rango de una matriz es igual al de 
su traspuesta. 

Las matrices cuadradas son aquellas que tienen el mismo numero de filas que de columnas. 
Las matrices cuadradas tienen ciertas propiedades similares a los escalares. Podemos definir 
la matriz inversa, y existen distintas formas de obtener una medida escalar de una matriz 
cuadrada. La primera es la traza, la segunda el determinante y la tercera construir una 
forma cuadrat-ica a partir de la matriz. Veremos en el capi'tulo siguiente que todas estas 
propiedades tienen una interpretation estadi'stica en el analisis de datos multivariantes. 

2.3.1 Definiciones basicas 

Llamaremos matriz, A, de dimensiones (n x p) a un conjunto de n x p numeros reales, 
ordenados en n filas y p columnas. Por ejemplo, si medimos p variables en n individuos de 
una poblacion podemos representar cada variable por un vector columna de dimension n y 
el conjunto de datos muestrales sera una matriz n x p. En particular, cada vector columna 
es pues una matriz (n x 1). Una matriz (n xp), puede verse como un conjunto de p vectores 
columna en P” , o como un conjunto de n vectores fila en W . Llamaremos matriz traspuesta 
A 7 a la matriz obtenida a partir de A intercambiando filas por columnas. Si A es n x p, A' 
sera p x n. Se verifica: 


(A ')' = A. 

La suma de dos matrices se define solo cuando ambas tienen las mismas dimensiones. 
Cada elemento de la matriz suma se obtiene sumando los element-os correspondientes de los 
sumandos 



On . . 

’ ^lp 


'fen • • 



Cll • • 

• Cl p 

A + B = C =*► 

Clnl ■ ■ 

• ^ np 

+ 

bnl • • 

• bnp 

— 

^nl • • 



con Cij = dij + bij. Se verifica: 
(a) A + B = B + A 
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(b) (A + B)' = A'+B'. 

Sumar dos matrices equivale en terminos estadi'sticos a sumar los valores de las variables 
correspondientes a las columnas de las matrices. Por ejemplo, si la matriz A representa el 
numero de incidencias leves de p clases distintas en una empresa en n semanas y la B el 
numero de incidencias graves en las mismas semanas, la suma representa el numero total de 
incidencias. 


2.3.2 Productos entre matrices 


Vamos a estudiar dos tipos de productos entre matrices. El primero y mas importante es 
el producto matricial, lo represent aremos por AB y solo es posible cuando el numero 
de columnas de A es igual al numero de filas de B. Entonces, si A(n x p) y B(p x h), el 
producto es una matriz C(n x h) con terminos: 


c 


ij 


P 

^ ^ V’irrJhnj 
m = 1 


Es decir, el termino c l:] representa el producto escalar del vector a', definido por la i-esima 
fila de A, por el vector b ? , de la j-esima columna de B. Si escribimos: 



A = 



B = [b!...b h ] 


donde todos los vectores tienen dimensiones p, el producto matricial de estas dos matrices 
es: 


AB = C 


a'jbi . . . a^b h 


a'bi 


a n h h 


(nxh) 


Observemos que el producto de dos matrices no es en general conmutativo, ya que si AB 
existe (el numero de columnas de A es igual al numero de filas de B), el producto BA puede 
no existir. Ademas, cuando existe, el producto AB es, en general, distinto de BA. 

En particular, el producto de una matriz (n x p) por un vector (p x 1), Ax, sera un 
nuevo vector de dimension (nxl) cuyos componentes se obtienen por el producto escalar 
de las filas de A por el vector x. Si 


y = Ax, 

la matriz A transforma un vector x en en otro vector y en ! ft n . Como veremos mas 

adelante, los movimientos y deformaciones de vectores en el espacio son el resultado de 
multiplicar el vector por una matriz. 

Definimos la matriz identidad de dimension n. I n , como la matriz de dimensiones nxn 
que tiene unos en las posiciones ii y ceros fuera de ella. En general la dimension est-a clara 
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por el cont-exto y utilizaremos la letra I para representar la matriz ident-idad de cualquier 
dimension: 

' 1 ... 0 " 

I = : 1 i - 

0 ... 1 

El producto matricial tiene, entre otras, las propiedades siguientes, donde snponemos que 
las matrices tienen las dimensiones adecuadas para que los productos est-an definidos: 

(a) A(B + C) = AB + AC 

(b) (AB) / =B , A 

(c) AI = IA = A 

(*)Producto de Kronecker 

El producto de Kronecker nos resuelve el problema de construir matrices grandes cuyos 
elementos son matrices dadas mas pequenas y se define para matrices cualesquiera. Dadas 
dos matrices A/, xn y B pxq , su producto de Kronecker, que represent aremos con el sfmbolo ®, 
se efectua multiplicando cada element-o de la primera por todos los elementos de la segunda, 
de manera que la matriz resultante tiene un numero de filas igual al producto de las filas, 
kp. y un numero de columnas igual al producto de las columnas, nq. Este producto existe 
siempre sean cual sean las dimensiones de las matrices, y se representa por : 

OnB a^B . . . ai n B 

a2iB a 22 B . . . a 2n B 

A <8) B = 

a/ciB a k2 B . . . a kri B 

donde la matriz producto es de orden kp x nq. Por ejemplo, 



Las propiedades siguientes son result-ado directo de la definition: 

(a) si c es un escalar c 0 A = A®c = cA. 

(b) si x e y son vectores: 

x <0 y = y' 0 x 

(c) (A <g> B)' = A' <8) B' 

(d) (A 0 B)(C 0 D) = AC 8) BD, supuesto que los productos AC y BD exist-en. 
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En estadfstica el producto de Kronecker se utiliza para construir matrices cuyos element-os 
son a su vez matrices, con frecuencia repet-idas. Por ejemplo, si queremos construir una matriz 
que t-enga como element-os diagonales la matriz A, definimos el product-o 

"AO 0 ' 

I 3 ®A = 0 A 0 

0 0 A 

donde si I 3 es la matriz ident-idad y 0 es una matriz de ceros, ambas de dimensiones 3x3. 

2.3.3 Rango de una matriz 

Una propiedad basica de una matriz es el rango, que indica el numero maximo de vect-ores 
fila o columna linealment-e independientes que cont-iene la matriz. En una matriz de nx 
p , suponiendo n > p. el maximo numero de vect-ores linealment-e independientes es p. En 
efect-o, si consideramos los vectores formados por las p columnas, t-enemos p vectores en IPk 
que pueden ser linealment-e independientes. Sin embargo, si consideramos los n vectores fila, 
estos son vectores de 'R p . y el maximo numero de vectores independientes en est-e espacio es 
p. Por tant-o, el rango maximo de la matriz es p. y cuando esto ocurre decimos que la matriz 
es de rango complet-o. Por la definicion es inmediat-o que el rango de una matriz y de su 
transpuesta es el mismo. 

En general, si llamamos rg ( A ) al rango de la matriz A se verifica: 

1. rg(A nxp ) < min(n,p). El rango es igual o menor que el menor de n y p. 

2. Si rg( A nxp ) = n < p o rg(A nxp ) = p < n, se dice que A es de rango complet-o. 

3. rg( A + B) < rg(A) + rg( B). 

4. rg(AB) < mmimo(rg(A), rg(B )) 

5. rg(A'A) = rg(AA') = rg{ A). 

Las dos primeras propiedades resultan de la definicion. Es facil comprobar que el rango 
de la suma no puede ser mayor que la suma de rangos. Por ejemplo en la suma 

" 1 2 0 1 r -1 0 0 1 _ [ 0 2 0 ' 

oioJ + [o 0 oj - L° 1 °J’ 

la primera matriz t-iene rango dos, (los dos vectores columna no nulos son linealment-e inde- 
pendientes), la segunda rango uno (solo un vector es linealment-e independiente) y la suma 
tiene rango uno. 

Si multiplicamos dos matrices, el rango de la matriz resultante no puede exceder a la de 
menor rango. Por ejemplo, en el product-o 


1-11 
2 10 


1 1 

1 0 

0 -1 


0 0 
3 2 
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cada una de las matrices que se multiplican tiene rango dos, pero el producto tiene solo 
rango uno. Finalmente, si multiplicamos una matriz por su transpuesta el producto tiene 
el mismo rango que la matriz original. En Estadi'st-ica el rango de una matriz de datos nos 
indica la dimension real necesaria para representar el conjunto de datos, o el numero real de 
variables distintas de que disponemos. Analizar el rango de una matriz de datos es la clave 
para reducir el numero de variables sin perdida de information. 


2.3.4 Matrices Cuadradas 

Una matriz es cuadrada si n = p. Dentro de las matrices cuadradas se Hainan simetricas 
a las que t-ienen cada fila igual a la correspondiente columna, es decir a,; ? = a ]t . Una matriz 
simetrica es, por tanto, ident-ica a su traspuesta, y diremos que A es simetrica si 

A'= A. 

Una clase de matrices cuadradas y simetricas muy importante son las matrices diago- 
nales, que t-ienen unicament-e terminos no nulos en la diagonal principal. Un caso particular 
importante de matriz diagonal es la matriz identidad o unidad, I, ya estudiada. 

En particular, los product-os AA ; y A' A conducen a matrices simetricas. Las matrices 
cuadradas aparecen de manera natural cuando consideramos estos productos en matrices de 
datos. Si A es (n x p) y represent-a los valores de p variables de media cero en n individuos 
de una poblacion, la matriz cuadrada de orden p. A 1 A /n, va a cont-ener, como veremos en 
el capi'tulo siguiente, las varianzas y covarianzas entre las variables. Otra matriz cuadrada 
y simetrica de amplio uso en estadi'st-ica es la matriz de correlation, que cont-iene unos en la 
diagonal y fuera de ella los coeficient-es de correlation entre las variables. 

Sobre las matrices cuadradas podemos definir dos medidas escalares que resumen su 
tamano global : el determinante y la traza. Ambas son medidas relat-ivas, ya que se modifican 
si multiplicamos los element-os de la matriz por constant-es, como veremos a continuation. 


Determinante de una matriz 

Dada una matriz A cuadrada y diagonal con terminos a„ se denomina determinante de la 
matriz, y lo represent aremos por |A|, al escalar resultante de multiplicar t-odos los terminos 
diagonales de la matriz. Supongamos inicialment-e una matriz de orden dos como 


si consideramos las columnas de esta matriz como vectores, cada vector esta situado en uno 
de los ejes coordenados. La figura 2.2 ilustra esta situation. El determinante de esta matriz 
es 2x4=8, igual al area del rect-angulo determinado por ambos vectores. 
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Figura 2.2: El determinante como area encerrada por los vectores columna de la matriz 


Generalizando esta idea, dada una matriz A cuadrada de orden n con ter m i n os a l3 . se 
denomina determinante de la matriz, y lo represent aremos por |A|, al escalar obtenido 
mediant-e la suma de todos los productos de n element-os de la matriz, a Ul a 2 i 2 , . . . , a rUn . que 
podemos formar de manera que en cada product-o aparezca una vez un elemento de cada 
fila y uno de cada columna. Cada termino tiene ademas un signo, que depende del numero 
de cambios entre dos subi'ndices consecut-ivos, que es necesario para poner los subi'ndices 
ii, . . . : in de ese termino en el orden natural 1,2,... , n. Escribiremos : 

| A | ^ ^ ( 1) •••) ® ni„ 

donde el sumatorio esta ext-endido a las n\ permutaciones de los segundos indices. Los indices 
/’ i , . . . i n son una permutacion de los m'nneros 1,2,... , n y r es el numero de cambios entre 
dos subindices necesario para ponerlos en el orden 1,2,... , n. 

Por ejemplo, en la matriz 2x2 el numero de permutaciones de los m'nneros 1 y 2 es dos 
((1,2) y (2,1)). La primera permutacion esta en el orden natural luego el numero de cambios 
es r = 0 y el termino ana 2 2 sera posit-ivo. La segunda requiere permutar el uno y el dos, con 
lo que r = 1 y el termino ai 2 a 2 i sera negat-ivo. El determinante sera: 

|A| = ana 22 — ai 2 a 2 i. 

y, como demostraremos mas adelante, puede interpretarse de nuevo como el area del paralel- 
ogramo det-erminado por los vectores columna. La situacion se ilustra en la figura ??. Esta 
interpretacion sugiere que si una columna es proporcional a la otra, los dos vectores estaran 
en la misma direccion y el area encerrada por ambos, que es el determinante de la matriz, 
sera cero. La comprobacion de esta propiedad es inmediata: si la primera columna es (a, b )/ 
y la segunda(Aa, A b)/ el determinante sera aXb — bXa = 0. 
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En una matriz 3 x 3 el determinante t-iene 3! = 6 ter m i n os que se obt-iene de las 6 posibles 
permutaciones: 

1 2 3 

1 3 2 

2 1 3 

2 3 1 

3 1 2 
3 2 1 

la primera permutation va en el orden natural, luego r = 0. Las dos siguientes podemos 
ponerlos eu orden natural con un solo cambio entre indices consecut-ivos, luego r — 1. Las 
dos siguientes requieren dos cambios (por ejemplo, en la cuarta primero pasamos a 2,1,3 y 
luego a 1,2,3). Finalmente, en la ultima son necesarios 3 cambios, con lo que t-endra signo 
menos. En consecuencia: 

| A | = 011022^33 — Gqi 023®32 — CL12CL21CL33 + Ql 2 « 23®31 + 

+013021032 — CL 13022^31) 

y puede demostrarse que ahora el determinante es el volumen del paralepi'pedo generado por 
las columnas de la matriz. 

Para matrices mayores de 3, la interpretation del determinante como hipervo lumen es 
la misma, pero su calculo es tedioso. Para obtenerlo utilizaremos el concepto de menor. 
Llamaremos menor del elemento a, :j de una matriz cuadrada de orden n, rriij , al determinante 
de la matriz de orden n — 1 que resulta al eliminar de la matriz original A la fila i y la 
columna j. Se denomina adjunto del elemento a,j al escalar ( — 1 ) * J rriij. Se demuestra que 
el determinante de una matriz puede calcularse multiplicando cada elemento de una fila por 
sus adjuntos. Entonces: 

n 

|A| = ^ a l3 (~iy +3 rriij 

3 = 1 

para cualquier fila i. Por ejemplo, en una matriz 3x3, desarrollando por los element-os de 
la primera fila 

| A | = On (a22«33 — CL23CL32) — CL 12 (CL21CL33 — 023031) + 033 (021032 — CL22CL31) , 

que coincide con el result-ado anterior. Aplicando sucesivament-e esta idea es posible calcular 
el determinante de matrices grandes. 

El determinante se calcula muy facilment-e cuando una matriz es diagonal, ya que en- 
t-onces, como hemos visto, el determinante es el product-o de los terminos diagonales de la 
matriz. El mismo result-ado se obtiene si la matriz es triangular, que es aquella que t-iene 
t-odos los element-os por encima o por debajo de la diagonal principal nulos. Por ejemplo, 
una matriz diagonal de orden tres es 

'10 0' 

2 3 0 
14 2 
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Para calcular el determinante desarrollamos por la primera fila, con lo que obtenemos el 
producto del primer termino diagonal, 1, por su adjunto, que es otra matriz triangular 
ahora de orden dos. Desarrollando de nuevo este matriz por su primera fila tenemos el 
producto del segundo termino diagonal, 3, por un escalar, 2. Aplicando esta misma idea 
a matrices de cualquier tamano comprobamos que el determinante es el producto de los 
terminos diagonales. 

Los determinantes tienen las propiedades siguientes: 

(a) |AA| = A n |A| 

(b) | A'| = |A| 

(c) Si A y B son matrices cuadradas, |AB| = |A| |B| . 

(d) Si permutamos dos filas o dos columnas entre si, el determinante cambia solo su signo. 

(e) Si una fila (o columna) de una matriz es una combination lineal de las restantes filas 
(o columnas), lo que supone que su rango es menor que n, la matriz es singular y el 
determinante de la matriz es cero. 

e 



El determinante como area del paralelogramo formado por los dos vectores 


La figura ?? ilustra la interpretation del determinante como area del paralelogramo 
definido por los dos vectores. Este area es el producto de la base, j u 2 1 1 , por la altura, 
||ni||sen0. Consideremos el determinante de la matriz 


[viv 2 ] = 


v) Vi v' x v 2 
V2V1 v^v 2 



entonces: 



40 


CAPITULO 2. ALGEBRA MATRICIAL 


y el determinante de la matriz formada por los dos vectores es ||tq|| || ^ 2 1| sen0, el area del 
paralelogramo que forman. Observemos se obtiene el mismo resultado cuando los vectores 
Vi y v 2 son vectores de R n , ya que la matriz CC sera cuadrada, y su determinante es 
el cuadrado del area encerrada por los vectores. Si interpretamos los vectores V! y v 2 
como variables, veremos en el capftulo 3 que el producto CC es su matriz de varianzas 
y covarianzas, y su determinante, que es el area que forman, es una medida global de la 
independencia entre las variables, como veremos en la seccibn 3.5. Por ejemplo, en el caso 
general de p variables, si una variable es combinacion lineal de las demas, las variables son 
linealmente dependientes, la columna correspondiente a esa variable en la matriz de varianzas 
y covarianzas sera tambien combinacion lineal de las demas columnas y el determinante de la 
matriz de covarianzas sera nulo. Por otro lado, si las variables estan incorreladas su matriz 
de covarianzas es diagonal y el determinante sera, en ter m i n os relat-ivos, maximo. Por tanto 
podemos concluir que cuanto mayor sea el determinante mayor es la independencia entre los 
vectores. 

Traza de una matriz 

Se denomina diagonal principal de una matriz cuadrada C de orden n con element-os c l:] al 
conjunt-o de element-os c vlJ i = 1, ..., n. La traza de una matriz cuadrada es la suma de los 
element-os de la diagonal principal de la matriz, escribiremos: 

n 

tr( C) = 

i= 1 

La traza es un operador lineal. En efect-o, de la definicion se obtiene: 

(a) tr( A + B) = tr( A) + tr( B). 

(b) tr( AA) = Afr(A), donde A es un escalar. 

(c) Se demuestra que: fr(ABC) = fr(BCA) = tr(CAB), en el supuesto de que t-odos los 
product-os esten definidos. 

(d) Si la matriz C es simetrica, tr( C 2 ) = tr(CC) = Y^i=i Sj=i c %- 

La traza es una medida global de t-amano de la matriz que se obtiene sumando sus 
element-os diagonales. Por ejemplo, la traza de una matriz de varianzas y covarianzas es 
la suma de t-odas las varianzas de las variables. Al sumar los element-os diagonales es una 
medida global de variabilidad, pero, a diferencia del determinante, no t-iene en cuenta las 
relaciones entre las variables. 

Rango de una matriz cuadrada 

El rango maximo de una matriz cuadrada de orden n es n. Cuando el rango es menor que n 
una fila o columna es combinacion lineal de las demas y decimos que la matriz es singular. 
Por otro lado, se comprueba que 
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1. Para matrices cuadradas del mismo orden, A, B y C, donde ByC son no singulares, 
rg(CAB) = rg{ A). 

2. Si A y B son cuadradas de orden n y AB = 0, entonces rg( A) + 777(B) < n. 

Formas cuadraticas 

Si transformamos un vector x mediant-e una transformacion lineal, y = Bx, la norma al 
cuadrado del nuevo vector sera 


y'y = x'B'Bx = x'Ax 

donde A = B B es una matriz cuadrada y simetrica. En funcion del vector original la forma 
resultante se denomina forma cuadratica. Llamaremos forma cuadratica a una expresion 
escalar del tipo: 


x'Ax 

donde x es un vector, x' su transpuesto, y A una matriz cuadrada y simetrica. La forma 
cuadratica es siempre un escalar. Su expresion general es: 

n n n 

E aiiX i + 2 E E dijXiXj. 

i= 1 i = 1 j=i -\- 1 

Diremos que una matriz A es semidefinida positiva si cualquier forma cuadratica 
formada a partir de ella es un numero no negat-ivo, para cualquier vector x^ 0. Si la forma 
cuadratica es siempre un numero positivo diremos que la matriz A es definida positiva. Se 
demuestra que las formas escalares, como el determinante y la traza, que pueden obtenerse a 
partir de matrices semidefinidas positivas son numeros no negativos. Una matriz semidefinida 
positiva t-iene pues propiedades similares a los numeros no negativos y una matriz definida 
positiva a los numeros positivos. 

Matriz Inver sa 

Dada una matriz A cuadrada n X n. no singular, definimos su inversa, A -1 , como una matriz 
n x n tal que: 


AA 1 = A -1 A = I 

donde I es la matriz ident-idad, que t-iene unos en la diagonal y ceros fuera de ella. Es decir, 
escribiendo A con vector fila a), la matriz A -1 t-endra vect-ores col umn a b, tales que: 








" 10 . 

. . 0 " 

a; 

[ b, .. 

• b n ] = 

a'jbi . . 

. a[b n 

— 

0 1 . 

.. 0 

. a « . 



_ a^bi . . 

a n b n 


0 ... . 

. . 1 
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En consecuencia la matriz A -1 debe tener por columnas vectores b tales que: (1) b, es 
ortogonal a a ? ,es decir el producto escalar b'a ? es cero Vj ^ i; (2) el producto escalar de los 
vectores b'a, = a'b., es uno. 

Observemos que el calculo de la matriz inversa resuelve el problema de calcular vectores 
ortogonales a uno dado (o variables incorreladas con una dada). Por ejemplo, el espacio 
ortogonal al vector ai puede calcularse construyendo una matriz que tenga a este vector 
como primera fila y calculando la inversa de la matriz. Si llamamos b 2 , . ..b n a los vectores 
columna de la matriz inversa, estos vectores forman el espacio nulo del vector ai. Como 
bust-ration, dada la matriz 


A 


2 1 
0 4 ’ 


es facil comprobar que la inversa es 


A - 1 


.5 -.125 
0 .25 


y el primer (segundo) vector columna de la inversa define el espacio ortogonal al segundo 
(primer) vector fila de la matriz original. 

La necesidad de calcular la inversa de una matriz aparece de manera natural al resolver 
sistemas de ecuaciones lineales 


Ax = b 

donde A es una matriz conocida cuadrada de orden n, b un vector de constantes y x un 
vector de n incognitas. Para que este sistema tenga solucion unica las n ecuaciones deben 
de ser distintas, lo que supone que no existe una fila de A que sea combinacion lineal de las 
demas. Entonces A es no singular y la solucion se obtiene mediante: 

x = A x b. 


El calculo de la matriz inversa de una matriz dada es engorroso y debe realizarse mediante 
un ordenador si la dimension de A es alta. Se demuestra que la inversa de una matriz puede 
calcularse por las tres operaciones siguientes: 

1. Se sustituye cada elemento por su adjunto. 

2. Se transpone la matriz resultante. Se obtiene una matriz que llamaremos adjunta de 
la matriz A. 

3. Se divide cada termino de la matriz adjunta por el determinante de la matriz original. 


Como ejemplo, calcularemos la inversa de la matriz 


A 


1 1 0 

-12 1 
0 0 3 
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comenzaremos sust.ituyendo cada elemento por su adjunto. Por ejemplo, para el elemento 
(1, 1) su adjunto es (— l) 2 [2 x 3 — 1 x 0] = 6. Para el (1, 2), (— l 3 ) [—1 x 3 — 1 x 0] = 3, etc. 
Asf obtenemos la matriz 

6 3 0 ' 

-3 3 0, 

-1 -1 3 


y al transponerla resulta la matriz adjunta : 


Adj (A) 


6 -3 -1 
3 3-1 

0 0 3 


Si dividimos ahora por el determinante de la matriz A 


A| =6 + 3 = 9, 


se obtiene la expresion de la inversa 


A- : = 



3 

0 


_1 " 

9 

1 

3 . 


y podemos comprobar que A A = I. 

La inversa de una matriz A tiene las propiedades siguientes: 


1. (AB)- 1 = B _1 A _1 para matrices cuadradas no singulares. 

2. (A , ) _1 = (A" 1 )' 

3. | A” 1 1 = | A]” 1 

4. si A es simetrica tambien lo es A -1 . 


La matriz inversa de una matriz de varianzas y covarianzas tiene una int-eresante inter- 
pretation en Estadfstica, como veremos en el siguiente capitulo. La matriz inversa recoge la 
information de la dependencia conjunta de todas las variables de manera mas completa que 
la matriz de varianzas y covarianzas. 


Inversas de sumas de matrices 

Es muy util poder calcular la inversa de una suma de matrices en funcibn de las inversas 
de los sumandos. La forma general es la siguiente: supongamos que las matrices A y C 
son matrices cuadradas no singulares de orden n y p respectivamente, y B y D son matrices 
rectangulares (n x p) y (p x n), se comprueba por multiplication directa que 

(A + BCD) -1 = A -1 — A _1 B(DA *B + C -1 ) -1 DA -1 . (2.1) 
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Si tomamos en esta expresion C =1 y las matrices B y D son vectores, que llamaremos 
b y d', se obtiene que 

(A + bd 7 )~ 1 = A" 1 - A -1 b(d / A -1 b+l) -1 d / A~ 1 

Cuando A y C tienen el mismo orden, se comprueba que la expresion de la inversa puede 
escribirse como: 


(A + C) -1 = C -1 (A -1 + C 1 ) _1 A _1 . (2.2) 

Veremos que estas formulas son muy utiles para estudiar el cambio de la matriz de 
varianzas y covarianzas, y otros estadfsticos relevantes, al eliminar observaciones o variables. 

Matrices ortogonales 

Llamaremos matriz ortogonal, C, a una matriz cuadrada, que representa un giro en el espacio. 
Para caracterizar estas matrices, supongamos que dado un vector x le aplicamos una matriz 
no singular C y obtenemos un nuevo vector y = Cx. Si esta operacion es un giro, la norma 
de y debe ser identica a la de x, lo que implica la condicion : 

y 7 y = x / C / Cx = x 7 x, 


es decir, debera verificarse que : 


CC = I 

De la definicion y = Cx deducimos que x = C" 1 y. Por otro lado, multiplicando por C 7 
tenemos que C'y = C Cx = x. De estas dos condiciones concluimos que la matriz inversa 
debe ser igual a su traspuesta. Esta es la condicion de ortogonalidad: 

C = C" 1 . 

Una matriz ortogonal debe tener filas (o columnas) que son vectores ortogonales entre si' 
y de longitud unidad, ya que: 


1 — 


cici . . 

. c) c n 


" 1 

1 

o 


[cr- • • c n ] = 



= 



qJ 

_ n _ 


. <Ci . . 

• <C n _ 


0 .. 

. 1 


ademas: |C| = | C r | =1, donde |C| es el determinante de C. 

Por ejemplo, en !R 2 , la matriz 

q _ f cos a —sen a \ 
y sen a cos a J 

es ortogonal, ya que CC 7 = I. 

Los vectores de una matriz ortogonal de orden n forman una base ortonormal de 
ya que son ortogonales y de norma uno. 
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2.3.5 Matrices Particionadas 


Una matriz puede subdividirse en elementos que sean a su vez matrices y a los que se aplican 
las reglas anteriores. Esta operacion es importante cuando queremos dividir las variables en 
bloques distintos. Por ejemplo, la matriz 



' 2 

3 4 ' 

A = 

5 

6 1 


0 

2 3 


puede escribirse tambien como una matriz 2x2 part.icionada: 


donde: 


A 


An A12 

A 2 i A 22 



Ai 2 — 


3 4 
6 1 ’ 


A 2 i — 0, A 22 — [2 3]. 


(2.3) 


Podemos obtener la inversa y el determinante de una matriz part.icionada en otra 2x2 
de manera que los terminos diagonales An y A 22 sean matrices cuadradas no singulares. La 
inversa de la matriz A dada por (2.3) se calcula mediante: 


A^ 1 


B 1 -B- l A V2 A^ 

— A 22 1 A 2 iB 1 A 22 ^ + A 22 1 A 2 iB 1 Ai 2 A 22 1 


donde 


B — (An — Ai 2 A 22 1 A 2 i) 

como puede comprobarse por multiplicacion directa. 

El determinante se obtiene mediante: 

I A | = | A 22 | | An — Ai 2 A 22 ) A 2 i | = | An 1 1 A 22 — An A,, 1 Ai 2 | = I A 22 1 |B 


L 2 i^-n ^-121 


Observemos que si la matriz es diagonal por bloques y A !2 = 0 , A 2 , = 0 , entonces A 1 

A" 1 0 


se obtiene simplemente como 


0 


A' 1 

-^-22 


y | A | = | An | |A 


12 


Ejercicios 2.3 

2.3.1 Calcular el determinante de la matriz formada por los tres vect.ores del ejercicio 2.2.2, 
a = (1, 0, 2) , b = (1, 1 , 2) , c = (2, 1 , 6) .^Que conclusiones podemos ext.raer de este resultado 
respecto a la independence lineal de estos vect.ores? 


2.3.2 Dada la matriz rectangular A 


1 1 
0 1 
2 2 


, calcular la matriz A' A y su determinante 


y traza. Hacer lo mismo para la matriz A A 7 . 
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2.3.3 Calcular la inversa de la matriz A' A del ejercicio anterior. Dibujar en el piano los 
vectores que forman esta matriz y su inversa y comentar sobre el result-ado obtenido. 


2.3.4 Demost.rar que la matriz 


y/2/2 —s/2/2 
V2/2 x/2/2 


es ortogonal. Aplicarla al vector (j) y 


dibujar el result-ado. ^,Que giro produce esta matriz? 

2.3.5 Se miden tres dimensiones fi'sicas en un grupo de 10 personas y est-os datos se 
disponen en una matriz rectangular A, de dimensiones (10 x 3), justificar las siguientes 
afirmaciones: 

a) El rango maximo de est-a matriz es 3. 

b) La operacion A'l m, donde lio es un vector (10 x 1) con t-odas sus component-es iguales 
a uno proporciona un vector (3 x 1) cuyos componentes son la suma de los valores de cada 
variable. 

c) La operacion AA'lio, proporciona un vector cuyos component-es son las medias de las 
variables. 

d) La operacion l 10 (4A'l 10 )' = ^ liol^o A, proporciona una matriz rectangular de di- 
mensiones (10 x 3), cuyas columnas contienen la media de cada variable. 

e) La matriz A= A— 2jl 10 I/ 10 A proporciona una matriz rectangular de dimensiones (10 x 
3), cuyas columnas contienen las desviaciones de cada variable con respecto a su media. 

f) La matriz A 7 A proporciona una matriz cuadrada de dimensiones (3x3), cuyos ter- 
minos diagonales son las sumas de las desviaciones a la media de cada variable al cuadrado. 

2.3.6 Con la matriz de dat-os de EUROALI del apendice de dat-os calcular las varianzas y 
covarianzas de las variables y colocarlas en una matriz cuadrada y simetrica de orden nueve, 
donde en la diagonal esten las varianzas y fuera de la diagonal las covarianzas. Calcular 
la traza y el determinante y pensar en su interpretation. Repetirlo para las variables 
estandarizadas. /,Que analisis le parece mas informativo? 

2.3.7 Calcule una base del espacio ortogonal al vector a) =(1 0 0 0 -1) de la forma 
siguiente: (1) construya una matriz arbitraria cuadrada de dimension 5 que t-enga como 
primera fila el vector a) ; (2) calcule la inversa de la matriz y tome el espacio generado por 
las columnas 2 a la 5. Just-ifique el resultado obt-enido. 

2.3.8 Demuest-re por multiplication direct-a la formula (2.2). (Not-a, utilice que (A -1 + C 1 ) 
puede escribirse como (I + AC *) *). 

2.3.9 Demuest-re por multiplication directa que (I + C) 1 = I — (I + C 1 j 1 . 

2.3.10 Demuestre por multiplication directa la formula (2.1). (Not-a, al sacar factor comun 
utilice que (DA _1 B + C ) 1 puede escribirse como C(I + DA X BC) . 


2.4 VECTORES Y VALORES PROPIOS 

Dada una matriz cuadrada hay determinadas propiedades que esperamos sean invariantes 
ante ciert-as transformaciones lineales que preservan la information exist-ent-e en la matriz. 
Por ejemplo, si transponemos la matriz las propiedades basicas de los vectores que la forman 
no varfan, y hemos vist-o que ni la traza ni el determinante se modifican. Si giramos los 
vectores que la forman, es decir multiplicamos la matriz por una ortogonal, no se alt-eran ni 
sus magnitudes ni sus posiciones relat-ivas, por lo que esperamos que las propiedades basicas 
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de la matriz se mantengan. Por ejemplo, si eii lugar de trabajar con los ingresos y los costes 
decidimos trabajar con los beneficios, construidos como ingresos-costes, y el volumen de 
act.ividad, definido como ingresos mas costes, hemos aplicado nna transformation ortogonal. 
Aunque la matriz cuadrada que representa las varianzas y covarianzas de las nuevas variables 
sea distinta de la original, la esencia del problema es la misma, y esperamos que la matriz 
de las nuevas variables tenga caract-eristicas identicas a las de las variables originales. Para 
precisar esta idea aparece el concepto de valores y vectores propios de una matriz cuadrada. 

Los valores propios son las medidas basicas de tamano de una matriz, que no se ven 
alteradas si hacemos un cambio de coordenadas que equivale a una rotation de los ejes. Se 
demuestra que las medidas globales de tamano de la matriz, como la traza o el determinante, 
son solo funcion de los valores propios y, en consecuencia, seran tambien invariantes ante las 
transformaciones que preservan los valores propios. 

Los vectores propios representan las direcciones caracten'st-icas de la matriz y no son 
invariantes. A1 aplicar una matriz cuadrada de orden n a un vector de dimension n este 
se transforma en direccion y magnitud. Sin embargo, para cada matriz cuadrada existen 
ciertos vectores que al transformarlos por la matriz solo se modifica su longit-ud (norma) y 
no su position en el espacio. Estos vectores se denominan vectores propios de la matriz. 

2.4.1 Definicion 

Llamaremos vectores propios de una matriz cuadrada de orden n a aquellos vectores cuya 
direccion no se modifica al transformarlos mediant-e la matriz. Por tanto u es un vector 
propio de la matriz A si verifica que : 


Au = Au. (2-4) 

donde A es un escalar, que se denomina valor propio de la matriz. En esta relation suponemos 
u^O, ya que si no es trivialmente cierta. Si u es un vector propio de A y multiplicamos 
(2.4) por cualquier a ^ 0, resulta que au sera tambien un vector propio de A. Para evitar 
esta indeterminacion suponemos que los vectores propios estan normalizados de manera que 
|| u|| = 1. Sin embargo, el signo queda indeterminado: si u es un vector propio tambien lo es 
— u. 

Para calcular el vector propio podemos escribir la ecuacion anterior como: 


(A-AI)u = 0, 

y este es un sistema homogeneo de ecuaciones que tendra solution no nula si y solo si la matriz 
del sistema, (A— Al), es singular. En efecto, si esta matriz fuese invertible multiplicando por 
la inversa tendrfamos que la unica solution es u = 0. Por tanto, este sistema tiene solucion 
no nula si se verifica que 

|A — AI| =0. 

Esta ecuacion se denomina la ecuacion caracterfstica de la matriz. Es una ecuacion 
polinomica en A de orden n y sus n rai'ces se denominan valores propios de la matriz. Es 
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inmediato de la definicion que si una matriz es diagonal los valores propios son los element-os 
de la diagonal principal. En efecto, tendremos: 


A- AI 


CL\ 

. 0 


' A 

... 0 " 




CL\ — A 

0 


: 02 : 

— 


a ; 


= 


: (X 2 A : 


0 . 

CL n 


0 

... A 




0 

. CL n A 



A AI| — (cq A )...(o n A), 


y las soluciones de esta ecuacion polinomica son cq, ..., a n . 

Aunque una matriz de orden n tiene siempre n valores propios, estos pueden aparecer 
repetidos. En general, una matriz tiene h < n valores propios distintos. Si un valor propio 
aparece repet-ido r veces se dice que tiene multiplicidad r. Por ejemplo, la matriz diagonal: 


2 0 0 0 
0 3 0 0 
0 0 0 0 
0 0 0 0 


tiene como valores propios 2, 3 y 0, este ultimo valor con multiplicidad dos (aparece dos 
veces). 

A cada valor propio distinto de una matriz cuadrada podemos asociarle un unico vector 
propio que sat-isface (2.4). En efecto, dado A podemos resolver el sistema y obtener u. Como 
la matriz del sistema es singular, existen infinitas soluciones, ya que si u es una solucion 
tambien lo es au, lo que resolvemos tomando el vector de norma uno. Si un valor propio 
es multiple, es decir, la matriz no tiene n valores propios distintos, los vectores propios 
asociados a valores propios con multiplicidad mayor de uno no estan definidos en general de 
manera unica. Para ilustrar esta idea, consideremos la matriz 


A 


1 0 0 
0 1 0 
0 0 2 


que tiene el valor propio 1 con multiplicidad 2. Los vectores U! = (1, 0, 0) 7 y u 2 = (0, 1, 0/ 
son vectores propios asociados al valor 1, pero tambien lo es u 3 = yu, + (1 — 7) u 2 , para 
cualquier valor de 7. Los vectores propios estan en un espacio igual a la multiplicidad del 
valor propio, 2, y cualquier vector normalizado de este espacio de dimension 2 es un vector 
propio de A. 

Cuando la matriz tiene n valores propios distintos, a cada valor propio le podemos 
asociar un vector propio bien definido y se demuestra que el conjunto de los n vectores 
propios es linealmente independiente. 

Los valores propios de una matriz tienen las propiedades siguient.es: 


1. Si A es un valor propio de A, A r es un valor propio de A r . En particular , si A 1 existe, 
A -1 es un valor propio de A -1 . 
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2. Los valores propios de una matriz y su transpuesta son los mismos. 

3. La suma de los valores propios de A es igual a la traza. 

tr{ A) = 

4. El producto de los valores propios de A es igual al determinante 

|A| = n K- 

5. Las matrices A y P 1 AP t-iene los mismos valores propios. 

6. Las matrices Ay A±I tienen los mismos vectores propios y si A es un valor propio 
de A, A ± 1 es un valor propio de A ± I y la 

7. Las matrices cuadradas ABC, BCA y CAB, donde las matrices A,B, y C son gen- 
erales con la condicion de que los productos existan, tienen los mismos valores propios 
no nulos. 

8. Si A es triangular los valores propios son los elementos diagonales. 

9. Si A y B son cuadradas de ordenes n y p los np vectores propios de su producto de 
Kronecker, A® B, son el producto de Kronecker de los vectores propios de A y B. 

La propiedad 1 se demuestra facilmente ya que si Au = Au, multiplicando esta ecuacion 
por A -1 , resulta u =AA _ 1 u, es decir A _1 u =A _ 1 u. Para comprobar la segunda escribiendo 
Au = Au y A'v = //v y multiplicando la primera por v' y la segunda por u' se t-iene 
v'Au = Av'u y u'A'v = //u'v y como el primer miembro de ambas es el mismo (un escalar 
es igual a su transpuesto) el segundo lo sera y X—p. Las propiedades 3 y 4 son consecuencia 
de las propiedades de diagonalizacion de matrices que comentamos a continuacion. La 5 
se comprueba facilmente ya que si Au =Au, multiplicando ambos miembros por P 1 por 
la derecha y P por la izquierda, se obtiene que P 1 A P u = Au y las matrices tienen los 
mismos valores propios. Los vectores propios de la matriz P 1 AP son P siendo u un 
vector propio de la matriz A. La propiedad 6 es consecuencia de que si Au = Au, ent-onces 
Au + Iu = Au + u, es decir, (A + I)u = (1 + A)u. Por otro lado si | A — AI| = 0, ent-onces 
tambien | A + I — I — AI| = | A + I — (1 + A)I|=0. La 9 resulta de la definicion de producto 
de Kronecker. 

2.4.2 Valores y vectores propios de matrices simetricas 

En este libro vamos a obtener vectores y valores propios principalmente de matrices simetri- 
cas. En est-as matrices: 

(1) los valores propios son siempre reales; 

(2) los vectores propios son ortogonales. 

Para comprobar esta segunda propiedad observemos que si Au* = A,;u, y Arp = X :/ u :/ 
son dos valores y vectores propios distintos, multiplicando la primera ecuacion por u'- y la 
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segunda por u' los primeros miembros son iguales y los segundos como A * ^ A ? solo seran 
iguales si 1 . 1 ) 11 , = 0. 


Para interpretar el significado de los valores y vectores propios de est-as matrices consid- 
eremos matrices simetricas de orden 2 cuyos vectores pueden dibujarse en un piano. Por 
ejemplo la matriz simetrica 


A 1 = 


a b 
b a 


es facil comprobar que sus valores propios se obtienen de (a — A) 2 = b 2 y que sus vectores 
propios estan en las direcciones (1,1) y (1,-1), y normalizados a norma uno son los vectores 
(0.7071, 0.7071)’ y ( 0.7071,- 0.7071)’ . Por ejemplo, si a = 3 y b = 1, de manera que la 
matriz esta formada por los dos vectores columna (3, 1)/ y (1, 3)', los valores propios son (4 
y 2). Supongamos que construimos una elipse con centro en el origen y que pase por los 
extremos de los dos vectores que forman la matriz, como indica la figura 2.3. Entonces los 
valores propios representan la distancia del extremo de cada eje de la elipse al origen. Por 
ejemplo el valor 4 indica que el eje principal de la elipse mide 4 unidades desde el origen, 
o 8 en total. Analogamente, el valor 2 indica la longitud del otro semieje de la elipse. Los 
vectores propios asociados a estos valores propios representan las direcciones de los ejes: el 
asociado al mayor valor propio es un vector unitario en la direccion de la diagonal principal 
y el segundo es perpendicular a el, como indica la figura 2.3. Si modificamos los valores 
de a y b los vectores propios no se modifican pero sf los valores propios. Si aumentamos a 
manteniendo fijo b alejamos los extremos de los vectores y la elipse tiene cada vez los ejes mas 
similares. Por ejemplo, la matriz formada por los vectores columna (100, 1)/ y (1, 100) ' tiene 
valores propios (101 y 99) y los mismos vectores propios. Por el contrario si aumentamos 
b manteniendo fijo a acercamos los extremos de los vectores y apuntamos mas la elipse, lo 
que aumentara la diferencia entre sus ejes. Por ejemplo, la matriz formada por los vectores 
columna (1.2, 1)/ y (1, 1.2)' tiene valores propios (2.2, 0,2) y los mismos vectores propios. 
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Figura 2.3: 


Representation de los valores y vectores propios de una matriz simetrica A, 


En la matriz anterior al ser los element-os diagonales ident-icos la orientation de la elipse 
era segun las bisectrices de los ejes. Esto no ocurrira si los element-os diagonales son distint-os. 
Por ejemplo, la matriz 


A2 


4 1 
1 2 


se encuent-re represent-ada en la figura 2.4. Ahora el eje mayor de la elipse est-a mucho mas 
cerca del vector de modulo mayor y puede comprobarse que los vectores propios son (0.9239 
0.3827) y (-0.3827 0.9239), y los valores propios (4.41, 1.59). 

Generalizando este ejemplo, los valores propios de una matriz simetrica representan las 
magnitudes de los ejes del elipsoide con centro el origen y determinado por los ext-remos de 
los vectores. Los vectores propios indican las direcciones de est-os ejes principales. 
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Figura 2.4: Representation de los valores y vectores propios de una matriz simetrica A 2 

2.4.3 Diagonalizacion de Matrices Simetricas 

Una propiedad muy importante de las matrices simetricas es que pueden convert-irse en 
una matriz diagonal mediante una transformation ortogonal. Sea A una matriz cuadrada y 
simetrica de orden n. Hemos visto que esta matriz tiene valores propios reales y vectores pro- 
pios ortogonales. Entonces los vectores propios, u l5 . . . , u n , son linealmente independientes 
y forman una base en F n . Podemos escribir 

A [u 1? . . . , u n ] [Aiu^, . . . , AyjUjj] . 

donde A i , . . . A„ son los valores propios que son numeros reales y que pueden no ser todos 
distintos. En particular, algunos de estos valores propios pueden ser nulos. Esta ecuacion 
puede escribirse, llamando D a la matriz diagonal con terminos A>, como 

AU = UD 

donde la matriz U es ortogonal. Multiplicando por U' = U 1 , tenemos que 

U'AU = D (2.5) 

y hemos transformado la matriz original en una matriz diagonal, D, mediante una matriz U 
ortogonal. La ecuacion (2.5) tiene una interesante interpretation geometrica. Observemos 
que U'A es una rotation de los vectores que forman la matriz, y esta ecuacion nos dice que 
estos vectores rotados son iguales a DU', que es el result-ado de multiplicar por los terminos 
de D a una base de vectores ortonormales. En ot-ros terminos, como A = UDU' vemos como 
se genera siempre una matriz simetrica: se parte de una base ortonormal de vectores, U',se 
modifica la norma de cada vector de esta base, multiplicandolo por una matriz diagonal, 
y luego se rotan de nuevo los vectores asf obtenidos. Diagonalizar una matriz simetrica 
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consiste en recuperar esta operation y los valores propios representan las constantes por las 
que se han multiplicado los vectores ortonormales iniciales y los vectores propios indican el 
giro realizado. 

Si tomamos determinantes en (2.5): 

| U 7 1 1 A 1 1 U | = | D | , 

y como |U| = U' = 1, el determinante de A sera el producto de sus rai'ces caracterfsticas. 
Por lo tanto, si una de las rai'ces caracterfsticas es nula, el determinante sera 0 y la matriz 
singular. 

Por otro lado, como en (2.5) las matrices U' yU son no singulares, el rango de A sera 
igual al de D, que al ser diagonal sera igual al numero de terminos diagonales no nulos, que 
son los valores propios de A. Por tanto: El rango de una matriz simetrica es igual al numero 
de razees caractensticas distintas de cero. 

Al diagonalizar una matriz simetrica obtenemos su rango, observando el numero de ele- 
mentos no nulos en la diagonal principal de la matriz transformada D. 

Descomposicion espectral 

Es interesante poder descomponer una matriz cuadrada simetrica en sus fuentes de variation 
intrfnsecas, es decir en las direcciones de los vectores propios con coeficientes que dependen 
de los valores propios. Est-o es lo que consigue la descomposion espectral. Premultiplicando 
(2.5) por U y post mult iplicando por U' se obtiene 

A = UDU' 

que, como hemos comentado en la section anterior indica como se genera una matriz simetrica 
a partir de una base ortonormal. Esta descomposicion puede escribirse: 

Aiu^ 

A =[u 1) .„,u n ] ; 

_ A n u' n 

de donde resulta: 

n 

A = Y AjUju' (2.6) 

i = 1 

que descompone la matriz A como suma de n matrices de rango uno u,u( con coeficientes 

A*. 

Si la matriz A tiene rango r la descomposicion espectral (2.6) indica que puede expresarse 
como suma de r matrices de rango unidad. La importancia de esta descomposicion es 
que si algunos valores propios son muy pequenos, podemos reconstruir aproximadamente A 
utilizando los restantes valores y valores propios. 

Observemos que la descomposicion espectral de A -1 es 

n 

a - 1 = y a-Vu' 

i= 1 

ya que A -1 tiene los mismos vectores propios que A y valores propios A,-~ 1 . 
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2.4.4 Raiz cuadrada de una matriz semidefinida positiva 

Una matriz cuadrada, simetrica y semidefinida positiva puede siempre descomponerse como 
producto de una matriz por su transpuesta: 

A = HH', 

en efecto, por la descomposicion espectral de una matriz simetrica 

A = (UD 1/2 ) (D 1/2 U') 

y tomando H = UD 1 ' 12 se obtiene la descomposicion. A la matriz H se la denomina una 
raiz cuadrada de la matriz A. La rai'z cuadrada de una matriz no es unica, ya que si 
A = HH' tambien A = H* H * donde H* = HC para cualquier matriz ortogonal C. Una 
forma de definir la rai'z de manera unica es exigir que la matriz H sea simetrica, con lo que 
A = H H. Esto puede hacerse tomando 

H = UD 1/2 U' 

Otra forma de hacer la descomposicion de manera unica es la descomposicion de Cholesky 
que estudiamos a continuation. 

Descomposicion de Cholesky (*) 

Puede demostrarse que la rai'z cuadrada de una matriz cuadrada, simetrica y definida posi- 
tiva puede obtenerse de manera que H = T sea triangular (T 7 sera tambien triangular) con 
terminos diagonales posit-ivos. Entonces la descomposicion es unica y se denomina descom- 
position de Cholesky. Tenemos 


A = TT' 

Demostraremos la existencia de esta matriz por induccion, que tiene la ventaja de propor- 
tional’ ademas un metodo para su calculo. Si la matriz es un escalar a trivialmente T = y/a. 
Supongamos que hemos encont.rado esta descomposicion para dimension p y veamos como 
obtenerla para dimension p + 1. Sea 


A — T T' 

J -p J -p 

y vamos a obtener la descomposicion para 

A p ai2 

a l2 ®22 

donde a 12 es un vector p x 1 y a 2 2 un escalar. Vamos a demostrar que esta matriz puede 
escribirse como T p+1 T) )+1 donde, tomando T p+1 como triangular inferior: 



(2.7) 


Tp+i~ 


T p 0 

1 tp+i 
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Entonces, la condition A p+ i= T p+ iT' J+1 equivale a las condiciones: 

a 12 = T p t, 


y 


a 22 = t't +t 2 p+1 , 


conjuntamente con (2.7). Como T p es no singular, podemos obtener 


t — T 1 a 12 


y ut.ilizando (2.7) podemos escribir 


tp+l — y «22 — a l2 la i2> 

que debe ser positivo si la matriz es definida posit-iva. Esta descomposicion se utiliza mucho 
en analisis numerico ya que puede calcularse iterativamente con el metodo propuesto. Por 
ejemplo, supongamos que A es una matriz de la forma 

a = r s i ^12 

[ 512 s\ 

con las varianzas y covarianzas de dos variables. Entonces A p = a\ = sf, T p = si; t =s 12 /si 


T 


si 0 

5i 2 /5i yfs s\ 2 j sf 


y cont-iene en la diagonal las desviaciones tfpicas de la primera variable y de la regresion de 
la segunda dada la primera. Esta propiedad es general. 

La descomposicion de Cholesky proporciona un metodo eficiente de calcular el determi- 
nants de una matriz ya que si A = TT 7 entonces |A| = |T| |T ; | = , siendo ta los 

elementos diagonales de T o T'. 


Diagonalizacion de dos matrices simetricas (*) 

Supongamos que A y B son dos matrices simetricas de la misma dimension y A es ademas 
definida positiva. Entonces la matriz H = A 1/2 C, donde C contiene los vectores propios 
de la matriz simetrica A _1 / 2 BA _1 ^ 2 verifica 

HAH = I 

y 

H'BH = D 

donde la matriz D es diagonal. 

Para comprobar esta propiedad observemos que como la matriz A l,2 BA 1/2 es simetrica 
la matriz C es ortogonal. Por tanto 

HAH = CA 1/2 AA 1/2 C = I 

y 

H'BH = C'A 1/2 BA 1/2 C = D 

donde la matriz D diagonal contiene los valores propios de la matriz A l/2 BA l/2 . 
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2.4.5 Descomposicion en valores singulares 

Para matrices rect-angulares generales puede conseguirse una descomposicion similar a la 
descomposicion espectral de una matriz simetrica. Como en el caso de matrices cuadradas 
y simetricas, t-oda matriz rectangular A de dimensiones (n x p) y de rango r puede ex- 
presarse como product-o de t-res matrices, dos con vectores ortogonales y una diagonal. La 
descomposicion es 


A = UiD^V; 

donde Ui es (n x r), D es (r x r) y V) es (r xp). La matriz diagonal D 1 / 2 contiene las rai'ces 
cuadradas de los valores propios no nulos de las matrices AA' o A' A, que son positivos. 
Est-os terminos diagonales de D se denominan los valores singulares de la matriz A. La 
matriz U | contiene en columnas los vectores propios unidos a valores propios no nulos de 
A A' y V | contiene en columnas los vectores propios unidos a valores propios no nulos de 
A' A. Las columnas de U j son ortogonales entre si' y tambien lo seran las de Los 
element-os diagonales de D 1//2 se denominan los valores singulares de la matriz A. 

2.4.6 (*)Diagonalizacion de Matrices generales 

Sea A una matriz cuadrada de orden n. Esta matriz es diagonalizable si, y solo si, sus 
vectores propios son linealment-e independientes. En efecto, supongamos que los vectores 
propios, Ux, . . . ,u„, son linealment-e independientes y forman una base en P”. Podemos 
escribir 


A [ui, . . . , u n ] = [Aiu l9 . . . , A n u n ] . 

donde A i , . . . A n son los valores propios que pueden no ser dist-int-os. En particular, algunos 
de estos valores propios pueden ser nulos. Esta ecuacion puede escribirse, llamando D a la 
matriz diagonal con terminos A,, como 


AU = UD 

Como la matriz U es no singular si los vectores propios son linealment-e independientes, 
multiplicando por la inversa se obtiene 


U _1 AU = D 

y hemos diagonalizado la matriz A. Podemos tambien escribir 

A = UDir 1 . (2.8) 

Hemos comprobado que una matriz es diagonalizable si tiene n vectores propios linealment-e 
independientes. Ent-onces puede escribirse como (2.8), donde U contienen los vectores propios 
y la matriz diagonal, D, los valores propios. 

Se demuestra que una condicion suficient-e para que una matriz sea diagonalizable es que 
t-enga valores propios distint-os. 
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Consideremos ahora el caso general de una matriz cuadrada de orden n con p valores 
propios Ai, . . . X p , con multiplicidad rn t . Y7i=i = n - Puede demostrarse que la condicion 
para que A tenga n vectores propios linealmente independientes es que el rango de la matriz 
(A - AjI) = n—rrii, y que esta condicion se cumple si la matriz tiene valores propios distintos. 
En efecto, los valores propios se obtienen de |A — AI| =0, lo que implica que, si todos son 
distintos, el rango de la matriz (A — A,I) es n — 1. 

2.4.7 (*)Inversas Generalizadas 

Se denomina matriz inversa generalizada de una matriz rectangular A nxp a una matriz A - 
de dimensiones p x n que verifica: 


AA A = A. 

En general existen muchas matrices que verifican esta condicion. Si ademas imponemos 
las condiciones: 

A~AA~ = simetrica 
A~A = simetrica 
AA - = simetrica 

ent-onces A “ es unica y se denomina la matriz inversa generalizada Moore-Penrose (MP) de 
A. Si n > p y A tiene rango completo, rg( A) = p. la matriz inversa MP es: 

A - = (A'A)" 1 A'. (2.9) 

El lector puede comprobar que esta matriz verifica las propiedades anteriores. Si p > n 
y rg (A) = n, esta matriz es: 

A~ = A' (AA')" 1 . 

Si A no tiene rango completo esta expresion no es valida ya que ni (A 7 A) 1 ni (AA') 1 
existen. La inversa MP se construye a partir de la descomposicion espect-ral de la matriz A' A 
(supuesto n > p). Si Ai, ... A r , r < p, son los valores propios no nulos de A' A y u 1; . . . u r 
sus vectores propios asociados podemos escribir: 

A' A = U r D r U' r , 

donde U r es rectangular p x r con los vectores u, en columnas y D r es diagonal r x r e 
incluye los valores propios no nulos. Entonces es facil comprobar que 

A- = UrD^U^A' 

que es la generalizacion de (2.9) para matrices de rango no completo. 

Ejercicios 2.4 

2.4.1 Calcular los vectores y valores propios de la matriz A = 
graficamente. 


1 

2 


y represent ar los 
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2.4.2 Escribir la representation espectral de la matriz A de 2.4.1 

2.4.3 Calcular los vectores y valores propios de la matriz A -1 y su representation espec- 
tral. 


2.4.4 Demostrar que 0 es un valor propio de una matriz A si y solo si esta matriz es 
singular. 


2.4.5 Demostrar que los valores propios de una matriz son iguales a los de su transpuesta. 


2.4.6 

2.4.7 


Dada la matriz A 


112 
10 2 
112 


calcular la matriz inversa generalizada. 


Calcular la descomposicion en valores singulares de la matriz A 


1 0 
0 1 
1 0 


2.4.8 Demostrar que | A + vv'| = | A| (1 + v / A^ 1 v / ), donde A es una matriz cuadrada no 
singular y v un vector. Para ello utilizar que si llamamos Ai al valor propio no nulo de la 
matriz de rango uno A _ 1 vv / , |(J + A” 1 vv')| = J|(l + A*) = 1 + Ai = 1 + tr(V A _ 1 v). 

2.4.5 Calcular la decomposition de Cholesky de la matriz definida positiva A'A. donde 
A es la matriz del ejercicio 2.4.6 


2.5 (*)PROYECCION ortogonal 

2.5.1 Matrices Idempotentes 

En un modelo lineal la estimation por mmirnos cuadrados equivale a la proyeccion ortogonal 
del vector de datos sobre el espacio generado por las variables explicativas. La proyeccion 
ortogonal tiene una importancia capital en los metodos de estimation lineal y se realiza 
multiplicando el vector que se desea proyectar por una matriz idempotente. Vamos a definir 
formalmente estas matrices. 

Llamaremos matriz idempotente 1 a una matriz cuadrada, simetrica, y que verifica la 
propiedad: 


AA = A = A'A. 

Es inmediato comprobar que una matriz idempotente o bien es singular (|A| = 0), con 
rango r menor que el orden n de la matriz, o bien es la matriz identidad. En efecto, como 
A es idempotente: 


AA = A 

si | A | 7 ^ 0, existira la matriz inversa A -1 , y multiplicando por A -1 

A _1 AA = A = I 

1 Una matriz idempotente puede no ser simetrica, pero todas las matrices idempotentes que utilicemos 
lo seran; por lo tanto, en adelante idempotente sera simetrica e idempotente, sin que detallemos que es 
simetrica. 
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Por tanto, una matriz idempotente que no es la matriz I sera singular. Comprobaremos 
que las rai'ces caracten'sticas de una matriz idempotente son cero o la unidad. Llamemos A 
a sus rai'ces caracten'sticas y u a sus vectores caracten'st-icos. Ent-onces: 

Au = Au, 

multiplicando por A, el primer miembro es: 

AAu = Au =Au 


y el segundo: 


AAu =A 2 u, 


es decir, 


Au = A 2 u 


de donde resulta: 


(A 2 — A) u = 0. 

Para que A sea una rai'z caracterfstica el vector u debe ser distinto de cero, entonces: 

A 2 - A = A (A - 1) = 0 

que tiene como soluciones A = 1 d A = 0. Por lo tanto, si se diagonaliza una matriz 
idempotente — lo que siempre puede hacerse al ser simetrica — obtendremos en la diagonal 
principal un numero de unos igual al rango de la matriz y el resto de los element-os seran 
cero. 

Una conclusion inmediata de este result-ado es que una matriz idempotente A es siempre 
semidefinida posit-iva. En efecto: 

x'Ax = x'A'Ax = (Ax)'Ax > 0. 

Finalment-e, si A es idempotente tambien lo es I — A ya que: 

(I - A) (I - A) = I - A - A + AA = I - A 

De las propiedades anteriores se deduce que si A es una matriz idempotente simetrica, 
su rango es igual a su traza. 

2.5.2 Proyeccion Ortogonal 

Dado un vector y de n component-es diremos que v es la proyeccion ortogonal de y sobre un 
subespacio E p cont-enido en y de dimension p, p < n si: 

1. y = v + w con v eE p 
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2. v'w = 0 para todo v ei? p . 

Esta definition indica que y puede descomponerse como suma de dos vectores perpen- 
diculares: el primero, v, es la proyeccion ortogonal de y sobre E p y pertenece, por tanto, a 
E p ; el segundo, w, es ortogonal a todos los vectores de E p (y por tanto a E p ), y pertenece, 
en consecuencia, al espacio E n _ p , complemento ortogonal al E p . Es facil demostrar que esta 
descomposicion es unica. La figura 2.5 ilustra esta situation. 



Figura 2.5: Proyeccion ortogonal del vector y sobre el piano E 

Como ilustracion, sea E p un espacio de dimension uno engendrado por el vector x. En- 
tonces la proyeccion del vector y sobre la direction del vector x sera: 

v = cx 

donde c es un escalar. Para deter m in ar c, impondremos la condition de que la diferencia 
w = y — v debe ser ortogonal a v, y por tanto a x: 

x (y - v) = o, 

es decir, x'y = x'xc, que implica: 

c=(xx) xy. 

Sustituyendo este valor de c en la expresion de v, la proyeccion sera: 

v = x(x , x) _1 x / y = Ay 
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es decir, la proyeccion de un vector y sobre ot.ro x se obt.iene multiplicando el vector por la 
matriz A = xfx'x) 'x'. Esta matriz A, es cuadrada (n x n), idempotent.e y de rango igual a 
la dimension del espacio sobre el que proyect.amos, que es, en este caso, uno. Comprobemos 
que es idempotent.e: 

^x (x'x) 1 x' j ^x (x'x) 1 X j = X (x'x) 1 X, 

y que es de rango uno: 

rg{ A) = tr( A) = tr ^(x'x) 1 x'xj = tr( 1) = 1 

Observemos que en el caso particular en que el vector x tiene norma unitaria, (x'x) = 1, 
y la expresion del vector proyeccion es 


v = xx'y 

que tiene uua interpretation inmediata: el vector proyeccion est.ara en la direction de x (lo 
que implica es de la forma cx) y su norma viene dada por la longitud de la proyeccion que 
es x'y, (ya que x tiene norma unitaria). 

A continuation generalizamos est.os resultados a proyecciones mas generales. 

Teorema 2.1 Sea y ElP 1 y sea X una matriz (n x p) cuyas columnas son una base de un 
cierto subespacio E p . Entonces la proyeccion del vector y sobre el espacio E p es Ay, donde 
la matriz cuadrada A es simetrica, idempotente, de rango p, y tal que A = X(X'X) _1 X'. 

Demostracion La proyeccion de y sobre un subespacio debe ser siempre del tipo v = Ay, 
donde A es idempotente. En efect.o la proyeccion de v sobre dicho espacio, dada por Av, 
t.endra que ser igual a v, ya que v pert.enece al subespacio. Por tanto, si Av = v , resut.a 
que: 


A(Ay) = Ay 

para t.odo vector y, lo que requiere A = A 2 , es decir, la matriz proyeccion debe ser idem- 
potente. Demostraremos ahora que la matriz idempotente A que proyecta sobre el espacio 
generado por las columnas de una matriz X, E p . viene dada por: 

A = X(X'X)- 1 X / . 

Probemos primero que A depende del subespacio E p , pero no de la base elegida. En efecto, 
si consideramos otra base B generadora del subespacio dada por: 

B = XC 

donde C es (p x p) y no singular, como (GP)~ 1 = P 1 G 1 para G y P matrices cuadradas 
no singulares, tendremos que: 

B(B , B)- 1 B / = XC(C , X / XC)- 1 C , X / = X(X , X)- 1 X / = A 
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por tanto, A no depende de la base escogida. A continuation veremos que el vector v definido 
por: 

v = X(X'X)' 1 X / y, 

verifica las condiciones de una proyeccion. Demostraremos, en primer lugar, que v esta 
contenido en E p . Llamemos 

(3 = (X / X) _1 X / y 

a los coeficientes de la proyeccion de y sobre el espacio de las columnas de X, que repre- 
sentaremos por xi, . ... x ; ,. Ent-onces 

v = X/3 = ^xi + /3 2 x 2 + ... + /3 p x p , 

y al ser v una combination lineal de las columnas de X pertenece a E p . Demostraremos 
ahora que y — v es ortogonal a E p . Todo vector de E p puede expresarse como: 

u = aqxi + ... + ctpXp = Xa 


y por tanto, 

u'(y - v) = u'(I - X(X'X) -1 X')y = a'(X' - X'X(X'X) _1 X')y = 0 

es decir, y — v es ortogonal a cualquier vector de E p , lo que demuestra el teorema. ■ 

Teorema 2.2 La condition necesaria y suficiente para que v = Ay, donde A es una matriz 
cuadrada, sea la proyeccion ortogonal de y G sobre un cierto espacio E p , es que A sea 
idempotente (A = A' , A 2 = A) de rango p. 

Demostracion La condition es necesaria: si A define una proyeccion, segun el teorema 
anterior puede expresarse como A = X(X / X) _1 X / , siendo X una matriz que contiene, en 
columnas, una base del espacio, por lo que A es simetrica e idempotente. 

La condicion es suficiente: supongamos que A es idempotente y hagamos 

y = Ay + (I - A)y 

Vamos a demostrar que el vector (I — A)y es ortogonal a todo vector que pertenezca a E p . 
Sea Ac un vector cualquiera que pertenece a E p . 

(Ac)'(I - A)y = c'(A' - A)y = 0 

por tanto, si A es idempotente, Ay es la proyeccion de y sobre el espacio generado por las 
columnas de A. ■ 

Teorema 2.3 Si y Gift”, v es su proyeccion sobre E p y z es cualquier otro vector de E p , se 
verifica, llam.ando ||y|| a la norma del vector y: 
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Demostracion Estas expresiones representan el teorema de Pit-agoras en un espacio general. 
Como, por definicion de proyeccion, v'(y — v) = 0, entonces v'y = v'v. Por otro lado: 

(y “ v)'(y - v) = y'y - v'y - y'v + v'v = y'y - v'v, 


que escribiremos 


y'y = v'v + (y - v)'(y - v) 


que es la primera igualdad. Para demostrar la segunda, partamos de la identidad 


y — z = y — v + v — z 

y multiplicando por el vector transpuesto y utilizando que y — v debe ser ortogonal a v — z, 
por serlo a t.odos los vectores de E p . el teorema queda demostrado. ■ 

Una consecuencia de este teorema es que podemos definir la proyeccion ortogonal de un 
vector y sobre un espacio E p como aquel vector v de E p t-al que ||y — v|| es mi'nimo. En 
este sentido el vector proyeccion es, el ”mas proximo” al original. En efecto, como, para 
cualquier vector z del piano: 

||y “ z|| > ||y — v || 

el vector v, proyeccion ortogonal, minimiza las distancias entre el espacio E p y el vector y. 

Teorema 2.4 Si y G !ft n , el cuadrado de la norma de su proyeccion sobre un espacio E p 
definido por las columnas de la mutriz X vendra dado por y'Ay , donde A es idempotente. 

Demostracion El vector proyectado sera Ay, donde A es idempotente, y su norma sera: 

(Ay)'(Ay) = y'Ay. 


Teorema 2.5 Si y G y proyectamos este vector sobre espacios ortogonales, Ei,...,E h , 
definidos por matrices de proyeccion , A 1 , ...Ah, donde: 

h 

n = rg(Ai) 

i = 1 

se verifica: 


y'y = y'A x y + y'A 2 y + ... + y'A^y. 

Ejercicios 2.5 

2.5.1 Calcule la proyeccion ortogonal del vector (1,1 3) sobre el espacio generado por las 
dos variables (1 ,1,1) y (0, 1,2). 

2.5.2 Exprese al vector anterior como combination lineal de las dos variables. 

2.5.3 Obtener el vector ortogonal al vector proyeccion. 

2.5.4 Demuestre que el resultado anterior es equivalente a realizar la regresion simple 
entre la variable (1,1 3) y la variable (0, 1,2). 

2.5.5 Demostrar, utilizando el Teorema 2.1, que para calcular los coeficientes de regresion 
multiple entre una variable y un conjunto de variables incorreladas basta con calcular los 
coeficientes de las regresiones simples. 
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2.6 ( * ) DERI VAD AS MATRICIALES 

Definicion 2.1 Dada un funcion f que depende de n variables, x\, ...,x n , que pueden con- 
siderarse componentes de un vector x, la derivada de f respecto a x es un vector cuyos 
componentes son la derivada de f respecto a cada componente de x. 


Ejemplo 2.1 Si f = bx\ + 2x2 + 3^3 

5 ' 

2 
3 

Los siguientes result-ados son consecuencia de la definicion 


df 

dx 


Corolario 2.1 Si f = a'x tendremos que: 

<9(a'x) 
dx =a 

Corolario 2.2 Si f = x'Ax, donde A es cuadrada y simetrica: 


d(x’ Ax) 
dx 


= 2 Ax 


Demostracion Resulta de aplicar la definicion anterior, como: 


n 

x'Ax = auxl + 2 aijXiXj 

i= 1 j>i 


tendremos que: 


<9(xAx) 
dx i 


2anXi + 2 a 12 %2 + ••• + 2ai n x n = 2&[x 


donde a^ es la primera fila de la matriz. Por tanto: 


9(xAx) 

dx 


2a jX 
2a' 2 x 


= 2Ax 


2 a' x 


Definicion 2.2 Dada un funcion f que depende de np variables, xu,...,x np , que son los 
componentes de una matriz rectangular n x p, X , la derivada de f respecto a X se define 
como la matriz cuyos componentes son la derivada de f respecto a cada componente de X'. 
La derivada es pues una matriz p x n con las dimensiones de X'. 
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Los siguientes resultados se comprueban aplicando la definicion 


Corolario 2.3 Corolario 2-4 Si f = a'Xb 

9(aJXb) 

ax 

Definicion 2.3 Ejemplo 2.2 Corolario 2.5 Si f = a'X'Xb 


a(a'X'Xb) 

ax 


(ab' + ba')X' 


Definicion 2.4 Dado un vector y cuyos componentes son funciones /* de un vector de 
variables x' = (aq, ..., x n ), definimos la derivada de y respecto a x como la matriz cuyas 
columnas son las derivadas de los componentes fi respecto ax. Es decir, si: 


y = (/l(x),...,/n(x)) 


entonces: 


dy_ 

ax 


a/i df n 


a x ’ " ■ ’ a x 


r 2 A. 

dfn 

dx\ 

dx\ 

dfi 

dfn 

- dXn 

dx„ 


Corolario 2.6 Si y = Ax, donde A es una matriz cualquiera. 


a (Ax) 

ax 


= A' 


Demostracion Para deducir este result-ado de la definicion anterior, escribamos la matriz 
A como: 


A = 


donde cada a) es una fila de la matriz. Entonces: 


con lo que: 


y = Ax = 


a'jX 

a n x 


dfi = a(a(x) 
ax ax 


por tanto, segun lo anterior: 
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Otras propiedades 

Puede deducirse, extendiendo las definiciones anteriores, que, si los elementos de la matriz 
cuadrada y no singular X son distintos: 


a) 

b) 


din I XI 


<9X 
d |X| 


= 1X0 


= ixi m 


dX 

c ) «^ci = B 'C / 

ademas, si X es simetrica: 

dtr(XB) 

dX 

d |X| 


d) 

e) 

f) 


dtr (XB) 

<9X 
dtr (X'AXB 


= B' 


d 


dtr BX 


3 


= BX'A + B'X'A' 


ax 


= - (X^BX- 1 ) 


<9X 


= B + B'— diag(B) 

= |X|(2 X- 1 - diag (X^ 1 )) 


El lector interesado puede encontrar las demostraciones de estos resultados en Bibby y 
Toutenterg (1977), Graybill (1983) y Pollock (1979). 

Ejercicios 2.6 

2.6.1 Calcular la derivada con respecto al vector x =(x\, X 2 )' de las funciones siguient.es 

a) /i(x) = 2xi + 3x 2 , 

b) / 2 (x) = 4xl ~ 3x x x 2 , 

c) / 3 (x) = 2 >x\x 2 + 2x\xl — Ixixl + 6 

2.6.2 Calcular la derivada con respecto al vector x ={x \ , x 2 )' de las funciones vectoriales 
siguientes, construidas con la notacion de 2.6.1 

a) fi(x) = (/ 1 (x),/ 2 (x),/ 3 (x))', 

b) f 2 (x) = (2/i(x) + 5/ 2 (x), -6/3 (x))', 


Xi x 2 
x 3 x A 


2.6.3 Si x =(a:i, x 2 , x 3 , x A )' y X = 

utilizar este resultado para confirmar la expresion de 

2.6.4 En el ejercicio anterior comprobar que 


, comprobar que 
din |X| 

<9|X| 


din |X| 
dx 1 


xi 14 —^22:3 


y 


dX 


dX 


x A 

-x 2 


-X 3 

Xi 


. Utilizar esta expre- 


sion para verificar la ecuacion dada de la derivada del determinante de una matriz cuadrada. 


2.6.5 Si x —(xi, x 2 , x 3 y y X = 


Xi x 2 
x 2 x 3 


, comprobar que 


0|X| 

dX 


x 3 

-2x 2 


-2x 2 

X\ 


Utilizar este resultado para confirmar la expresion general de la derivada del determinan 
de una matriz cuadrada. 


te 



Capftulo 3 


DESCRIPCION DE DATOS 
MULTIVARIANTES 

3.1 INTRODUCCION 

En este capftulo y en el siguiente vamos a estudiar como describir un conjunto de datos 
multivariantes. Supondremos que hemos observado un conjunto de variables en un conjunto 
de elementos de una poblacion y en este capftulo presentaremos metodos para resumir los 
valores de las variables y describir su estructura de dependencia. En el capftulo siguiente 
completaremos el analisis descriptivo analizando como representar los datos graficamente y 
decidir respecto a posibles transformaciones de las variables originates que conduzcan a una 
description mas simple. Tambien comentaremos el problema de limpiar los datos de valores 
atfpicos, que son observaciones debidas a errores de medida o otras causas de heterogeneidad. 

El analisis descriptivo que presentamos en este capftulo debe siempre aplicarse como 
primer paso para comprender la estructura de los datos y extraer la information que con- 
tienen, antes de pasar a los metodos mas complejos de los capftulos siguientes. Las her- 
ramientas simples que describimos en estos dos capftulos pueden, en ocasiones, resolver el 
problema que ha motivado la recogida de los datos. En particular, cuando el interes se centra 
en la relation entre las variables o en la comparacion de dos conjuntos de datos, los metodos 
descript-ivos pueden ser de gran ayuda antes de emprender estudios mas complejos. 

3.2 DATOS MULTIVARIANTES 

3.2.1 Tipos de variables 

La information de partida para los metodos estudiados en este libro puede ser de varios tipos. 
La mas habitual es una tabla donde aparecen los valores de p variables observadas sobre n 
elementos. Las variables pueden ser cuantitativas, cuando su valor se exprese numericamente, 
como la edad de una persona, su estatura o su reuta, o cualitat-ivas, cuando su valor sea un 
atributo o categorfa, como el genero, el color de los ojos o el municipio de nacimiento. Las 
variables cuantitativas pueden a su vez clasificarse en continuas o de intervalo, cuando pueden 
tomar cualquier valor real en un intervalo, como la estatura, o discretas, cuando solo toman 
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CO xi x 2 x 3 

A 1 0 0 

V 0 1 0 

C001 
N 0 0 0 

Tabla 3.1: Codification de variables categoricas 


valores enteros, como el numero de hermanos. Las variables cualit-ativas pueden clasificarse 
en binarias, cuando toman unicamente dos valores posibles, como el genero (mujer, hombre) 
o generales, cuando toman muchos valores posibles, como el municipio de residencia. 

Supondremos en adelant-e que las variables binarias se han codificado como numericas 
(Por ejemplo, la variable genero se convierte en numerica asignando el cero al varon y el uno a 
mujer). Las variables cualit-ativas pueden tambien codificarse numericamente, pero requieren 
un tratamiento distinto. Si los valores de las categorias no t-ienen relation entre si, la forma 
mas util de codificarlas es convirtiendolas en variables binarias. Por ejemplo, supongamos la 
variable color de los ojos, CO, y para simplificar supongamos que las cat.egon'as posibles son 
azules (A), verdes (V), cast-anos (C) y negros (N). Tenemos p = 4 categorias que podemos 
representar con p — 1 = 3 variables binarias definidas como: 

a) x\ — 1 si CO=A, x\ = 0 en otro caso. 

b) x 2 — 1 si CO=V, x 2 = 0 en otro caso. 

c) £3 = 1 si CO=C, x$ = 0 en otro caso. 

La tabla 3.1 presenta la codification de la variable atributo CO en las tres variables 
binarias cuantit-at-ivas, x 1 , x 2 , a : 3 

Si el numero de clases posibles de una variable cualit-ativa es muy grande est-e procedimien- 
t-o siempre puede aplicarse pero puede logicament-e dar lugar a muchas variables. Conviene 
ent-onces ver si podemos agrupar las clases o categorias para evit-ar t-ener variables que casi 
siempre toman el mismo valor (cero si la categorfa es poco frecuente o uno si lo es mucho). 

Naturalment-e la variable CO podria tambien haberse codificado dando valores numericos 
arbitrarios a las categorias, por ejemplo, A=l, V=2, C=3, N=4, pero esta codification t-iene 
el inconveniente de sugerir una graduation de valores que puede no exist-ir. Sin embargo, 
cuando los atributos pueden interpretarse en funcion de los valores de una variable continua 
tiene mas sentido codificarla con numeros que indiquen el orden de las categorias. Por 
ejemplo, si tenemos empresas pequenas, medianas y grandes, en funcion del numero de 
trabajadores, tienen sentido codificarlas con los numeros 1, 2, y 3, aunque conviene siempre 
recordar que estos numeros solo tienen un sentido de orden. 

3.2.2 La matriz de datos 

Supondremos en adelant-e que hemos observado p variables numericas en un conjunto de n 
element-os. Cada una de est-as p variables se denomina una variable escalar o univariante y 
el conjunto de las p variables forman una variable vectorial o multivariante. Los valores 
de las p variables escalares en cada uno de los n element-os pueden represent-arse en una 
matriz, X, de dimensiones (nxp), que llamaremos matriz de datos. Denotaremos por x l3 



3.2. DATOS MULTIVARIANTES 


69 


al elemento generico de esta matriz, que representa el valor de la variable escalar j sobre el 
individuo i. Es decir: 

datos i'y donde i = representa el individuo; 

j = 1 representa la variable 

Algunos ejemplos de datos que se utilizan en el analisis multivariante son: 

1. En 100 estudiantes de una universidad medimos la edad, el genero (1 mujer, 0 hombre), 
la calificacion media, el municipio de residencia (que se codifica en 4 categonas en 
funcion del tamano) y el curso mas alto en que se encuentra matriculado. Los datos 
iniciales se representan en una tabla de 100 filas, cada una de ellas correspondiente a los 
datos de un estudiante. La tabla t-endra 5 columnas, cada una de ellas conteniendo los 
valores de una de las 5 variables definidas. De est-as 5 variables 3 son cuantitativas, una 
binaria (el genero) y otra cualit-at-iva general (municipio de residencia, que tomara los 
valores 1, 2, 3, y 4). Alternativamente podrfamos codificar el municipio de residencia 
con tres variables binarias, y entonces, la matriz de datos tendra n =100 filas y p = 
7 columnas correspondientes a las tres cuantitativas, el genero, y las tres variables 
binarias adicionales para describir el tamano del municipio de residencia. 

2. En cada una de las 138 empresas de una zona medimos el numero de trabajadores, la 
facturacion, el sector industrial y la cant-idad recibida en ayudas oficiales. Si clasifi- 
camos el sector en ocho clases con siete variables binarias la matriz de datos sera de 
dimensiones 138 x 10 con tres variables cuantitativas y siete binarias (que describen el 
sector industrial). 

3. En 400 puntos de una ciudad inst-alamos controles que proporcionan cada bora las 
medidas de 30 variables ambientales y de contamination atmosferica en dicho punto. 
Cada hora tendremos una matriz de datos con 400 filas, los puntos de observation, y 
30 columnas, las 30 variables observadas. 

La matriz de datos, X, puede represent-arse de dos formas distintas. Por filas, como: 



X n X i2 ■ ■ 

X\p 


' X i ' 

X = 

®21 

%2p 

= 



%nl 

•Enp 
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donde cada variable x' es un vector fila, p x 1 , que representa los valores de las p variables 
sobre el individuo i. Alternativamente, podemos representar la matriz X por columnas: 


X = [x (1) . . . X(p)] 

donde ahora cada variable x (j ) es un vector columna, n x 1 , que representa la variable 
escalar Xj medida en los n element-os de la poblacion. Llamaremos x= (aq, ..., x p )' a la 
variable multivariante formada por las p variables escalares que t-oma los valores particulares 
xi, ...,x n , en los n element-os observados. 
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3.2.3 Analisis univariante 


Describir datos multivariantes supone estudiar cada variable aisladamente y ademas las 
relaciones entre ellas. Supondremos que el lector esta familiarizado con el analisis descript.ivo 
de una variable, y aquf expondremos unicamente las formulas que utilizaremos en otras partes 
del libro. El estudio univariante de la variable escalar x 3 implica calcular su media : 



i= 1 


que para una variable binaria es la frecuencia relat-iva de aparicion del atributo y para 
una numerica es el centro de gravedad o geometrico de los datos. Se calcula una medida 
de variabilidad con relacion a la media, promediando las desviaciones entre los datos y su 
media. Si definimos las desviaciones mediante dp- = (xij — x 3 ) 2 , donde el cuadrado se toma 
para prescindir del signo, se define la desviacion tipica por: 


s j 


E”= i d 


ij 


n 


YT i= i{ x 


v 

n 


X,' 


(3.1) 


y su cuadrado es la varianza , sj = XT=i / n • P ara comparar la variabilidad de distintas 
variables conviene construir medidas de variabilidad relativa que no dependan de las unidades 
de medida. Una de est-as medidas es el coeficiente de variacion 


CV 3 = 

donde de nuevo se toman los cuadrados para prescindir del signo y suponemos que x 3 es 
distinto de cero. En tercer lugar, conviene calcular los coeficientes de asimetria, que miden 
la simetrfa de los datos respecto a su centro, y que se calculan como: 

1 E {Xjj -x 3 f 
j n sj 

Est-e coeficiente es cero para una variable simetrica. Cuando el valor absoluto del coeficiente 
es aproximadamente mayor que uno podemos concluir que los datos tienen una distribucion 
claramente asimetrica. 

Una caracten'st-ica importante de un conjunto de datos es su homogeneidad. Si las desvia- 
ciones dij son muy distintas, esto sugiere que hay datos que se separan mucho de la media 
y que tenemos por tanto alta heterogeneidad. Una posible medida de homogeneidad es la 
varianza de las d, 3 . dada por: 




i= 1 



ya que, segun (3.1), la media de las desviaciones dj = s 2 . Se calcula una medida adimensional 
analoga al coeficiente de variacion dividiendo la varianza de las desviaciones por el cuadrado 
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de la media, s 4 , con lo que tenemos el coeficiente de homogeneidad, que puede escribirse 

Este coeficiente es siempre mayor o igual a cero. Desarrollando el cuadrado del numerador 
como — s j) 2 = Y2i = i d^+ns 4 — es ^ e coeficiente puede escribirse tambien 

como: 

= 1 J = K _ ! 

n Sj 

El primer miembro de esta expresion, K } . es una forma alternativa de medir la homogeneidad 
y se conoce como coeficiente de kurtosis. Como Hj >0, el coeficiente de kurtosis sera igual o 
mayor que uno. Ambos coeficientes miden la relation entre la variabilidad de las desviaciones 
y la desviacion media. Es facil comprobar que : 

1. Si hay unos pocos dat-os atfpicos muy alejados del rest-o, la variabilidad de las desvia- 
ciones sera grande, debido a estos valores y los coeficientes de kurtosis o de homogeneidad 
seran altos. 

2. Si los datos se separan en dos mit-ades correspondientes a dos distribuciones muy 
alejadas entre sf, es decir, tenemos dos conjuntos separados de datos distintos, la media de 
los datos estara equidistante de los dos grupos de datos y las desviaciones de todos los datos 
seran similares, con lo que el coeficiente Hj sera muy pequeno (cero en el caso extremo en 
que la mitad de los datos son iguales a cualquier numero, —a , y la otra mitad igual a a). 

Un objetivo central de la description de datos es decidir si los datos son una muestra 
homogenea de una poblacion o corresponden a una mezcla de poblaciones dist-int-as que deben 
estudiarse separadamente. Como veremos en el capftulo siguiente, un caso especialment-e 
importante de heterogeneidad es la presencia de una pequena proportion de observations 
atfpicas (outliers), que corresponden a datos heterogeneos con el resto. La detection de estas 
observations es fundamental para una correcta description de la mayorfa de los datos, ya 
que. como veremos, estos valores ext-remos distorsionan los valores descriptivos del conjunto. 
El coeficiente de kurtosis puede ayudar en este objetivo, ya que tomara un valor alto, mayor 
que 7 u 8. Por ejemplo, si contaminamos datos que provienen de una distribucion normal 
con un 1% de atfpicos generados por otra distribution normal con la misma media, pero 
una varianza 20 veces mayor, el coeficiente de kurtosis sera alrededor de 10. Siempre que 
observemos un valor alto de la kurtosis para una variable esto implica heterogeneidad por 
uno pocos atfpicos muy alejados del resto. 

Aparece un tipo distinto de heterogeneidad cuando tenemos una mezcla de dos pobla- 
ciones, de manera que una proportion importante de los datos, entre el 25% y el 50%, son 
heterogeneos con el resto. En este caso, el coeficiente de kurtosis es pequeno, menor de dos, 
y es facil comprobar que si mezclamos a partes iguales dos distribuciones muy dist-int-as, la 
kurtosis de la distribution resultant-e tiende a uno, el valor mi'nimo del coeficiente, cuando 
aumenta la separation entre las poblaciones 

La presencia posible de dat-os atfpicos recomienda calcular junto a los est-adfsticos tradi- 
cionales medidas robust-as de centralization y dispersion de los dat-os. Para centralization 


H J = 
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conviene calcular la mediana, que es el valor que se encuentra eii la position central al ordenar 
los datos. Para la dispersion, la MEDA, que es la mediana de las desviaciones absolutas re- 
specto a la mediana. Finalmente siempre conviene representar graficament-e las variables 
continuas mediante un histograma o un diagrama de caja (vease por ejemplo Pena, 2001). 
En el analisis initial de los datos conviene siempre calcular la media y la mediana de cada 
variable. Si ambas son similares, la media es un buen indicador del centro de los datos. Sin 
embargo, si difieren mucho, la media puede no ser una buena medida del centro de los datos 
debido a: (1) una distribution asimetrica, (2) la presencia de valores ati'picos (que afectaran 
mucho a la media y poco a la mediana) (3) heterogeneidad en los datos. 

A continuation pasaremos al analisis multivariante de las observations. En est-e capf- 
tulo present aremos como obtener medidas conjuntas de centralization y dispersion para el 
conjunto de variables y medidas de dependencia lineal entre pares de variables y entre todas 
ellas. 


3.3 MEDIDAS DE CENTRALIZ ACION : EL VECTOR 
DE MEDIAS 

La medida de centralization mas utilizada para describir datos multivariantes es el vector 
de medias, que es un vector de dimension p cuyos componentes son las medias de cada una 
de las p variables. Puede calcularse, como el caso escalar, promediando las medidas de cada 
elemento, que ahora son vectores: 


x = 


-x 

i= 1 


X; = 


Xl 


X T 


Su expresion a partir de la matriz de datos es : 


(3.2) 


x = 2-X'l, (3.3) 

n 

donde 1 representara siempre un vector de unos de la dimension adecuada. En efecto, 
escribiendo la matriz X en terminos de sus vectores fila, que son vectores de dimension 1 x p 
que contienen los valores de las p variables en cada elemento de la muestra, estos vectores 
son las columnas de X', y tendremos que: 


x = 


— [xi . . . x n ] 

n 



(3.4) 


que conduce a (3.2). El vector de medias se encuentra eu el centro de los datos, en el sentido 
de hacer cero la suma de desviaciones: 


XI (xi -x) = 0. 

2=1 
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ya que esta suma es XT=i x * — nix, y aplicando la definition (3.2) es inmediato que esta suma 
es cero. 

Las medidas de centralization escalares basadas en el orden de las observaciones no 
pueden generalizarse facilmente al caso multivariante. Por ejemplo, podemos calcular el 
vector de medianas, pero est-e punto no tiene necesariamente una situation como centro de 
los datos. Esta dificultad proviene de la falta de un orden natural de los datos multivariantes. 

Ejemplo 3.1 La tabla A. 5 del Apendice de Datos, MEDIFIS, presenta ocho variables fisicas 
tomadas en un grupo de 27 estudiantes. Las variables son sexo ( sex con 0 para mujer, 1 para 
varon), estatura (est, en cm,.), peso (pes, en kgr.), longitud de pie (Ipie, en cm), longitud de 
brazo (Ibra, en cm), anchura de la espalda (aes, en cm), diametro de craneo (dcr, en cm) y 
longitud entre la rodilla y el tobillo (hrt, en cm). 

La tabla 3.2 presenta las medias y desviaciones tipicas de las variables, asi como otras 
medidas de la distribucion univariante de cada variable. 



sex 

est 

pes 

lpie 

lbr 

aes 

dcr 

lit 

Medias 

.44 

168.8 

63.9 

39.0 

73.5 

45.9 

57.2 

43.1 

D. Tipicas 

.53 

10.0 

12.6 

2.8 

4.9 

3.9 

1.8 

3.1 

Coef. asimetria 

.22 

.15 

.17 

.27 

.37 

-.22 

.16 

.56 

Coef. kurtosis 

1.06 

1.8 

2.1 

1.9 

2.1 

2.4 

2.0 

3.4 

Coef. variacion 

1.2 

.06 

.20 

.07 

.07 

.09 

.03 

.07 


Tabla 3.2: Analisis descript-ivo de las medidas fisicas 


En la variable binaria sexo la media es la proporcion de unos (hombres) en los datos, la 
desviacion tipica es yjp{ 1 — p), donde p es la media. El lector puede com, probar que para 
variables binarias el coeficiente de kurtosis es 

p 3 + (1 — p) 3 

P(1 ~p) 

y en este caso, como p = .44 el coeficiente de kurtosis es 1.06. Para las variables continuas 
las medias describen los valores centrales. Si miramos los coeficientes de variacion se observa 
que en las medidas de longitudes, como la estatura, la longitud del pie y las extremidades, 
que vienen determ inadas m,as por la herencia genetica que por nuestros habitos, la variabili- 
dad relativa es del orden del 7% . El diametro del craneo es mucho mas constante, con una 
variabilidad relativa de menos de la mitad, el 3%. La variabilidad relativa de las variables 
que dependen mas de nuestros habitos, como el peso, es mucho mayor, del 20%. Las dis- 
tribuciones son aproxim.adamente simetricas, a juzgar por los bajos valores de los coeficientes 
de asimetria. Los coeficientes de kurt.osis son bajos, menores o iguales a dos para tres de 
las variables, lo que puede indicar la presencia de dos poblaciones mezcladas, como veremos 
en la seccion 3.6. Ninguna variable tiene alta kurtosis, por lo que podemos descartar la 
presencia de unos pocos valores atipicos grandes. 

La tabla 3.3 presenta dos medidas robustas, las mediana (valor central de los datos) y la 
MEDA o mediana de las desviacion absolutas para cada variable. Estas medidas confirman 
los comentarios anteriores. 
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est 

pes 

lpie 

lbr 

aes 

dcr 

lrt 

medianas 

168 

65 

39 

73 

46 

57 

43 

medas 

8.51 

10.50 

2.38 

3.96 

3.26 

1.52 

2.39 

meda/mediana 

.05 

.16 

.05 

.05 

.07 

.03 

.06 


Tabla 3.3: Analisis descriptivo robusto de las medidas fi'sicas 


Se observa que las medianas son muy sim Hares a las medias y las medas a las desviaciones 
tipicas, lo que sugiere falta de valores extremos. Los coeficientes de variacion robustos, 
calculados como ratio entre la meda y la mediana son tambien basicamente similares a los 
anteriores. Hay que senalar que, en general, la meda es m.as pequena que la desviacion tipica, 
y que, por tanto, estos coeficientes de variacion seran mas pequenos que los originales. Lo 
important e es que la estructura es similar entre las variables. La figura 3.1 muestra el 
histograma de la variable estatura donde se aprecia que los datos parecen ser la mezcla de 
dos distribuciones. Esto es esperable, ya que tenemos juntos hombres y mujeres. 


Figura 3.1: Histograma de las estaturas donde se observa una distribucion mezclada 


3.4 LA MATRIZ DE VARIANZAS Y COVARIAN- 
ZAS 

Como hemos comentado, para variables escalares la variabilidad respecto a la media se mide 
habit ualmente por la varianza, o su rai'z cuadrada, la desviacion tipica. La relacion lineal 
entre dos variables se mide por la covarianza. La covarianza entre dos variables {xj,xfi) se 
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calcula con: 

1 n 

Sjk ^ ^ ('t'i.j ^ j) i^ik X k ) 

U i = 1 

y mide su dependencia lineal. Esta informacion para una variable multivariante puede pre- 
sentarse de forma compacta en la matriz de varianzas y covarianzas . Definimos esta matriz 
co mo: 


s = ^E( x *- x )( x *- x )' (3.5) 

i= 1 

que es una matriz cuadrada y simetrica que contiene en la diagonal las varianzas y fuera de 
la diagonal las covarianzas entre las variables. En efecto, al multiplicar los vectores : 


xn - xi 


(■ Xu - Xi ) 2 . . . {x a - x 1 )(x ip - x p ) 


\Xi\ X \ , • • • i Xip Xp\ 


Xip Xp 


_ {.X ip - Xp){xn - Xi)... ( x ip - Xp ) 2 _ 


se obtiene la matriz de cuadrados y productos cruzados de las p variables en el elemento i. 
Al sumar para todos los elementos y dividir por n se obtienen las varianzas y covarianzas 
entre las variables. La matriz de varianzas y covarianzas, que llamaremos para simplificar 
matriz de covarianzas, es la matriz simetrica de orden p con forma: 


4 


s = 




'Sip 


3.4.1 Calculo a partir de la matriz de datos centrados 

La matriz S puede obtenerse directameute a partir de la matriz de datos centrados X, que 
se define como la matriz resultado de restar a cada dato su media: 

X = X - lx. 


Sust-ituyendo el vector de medias por su expresion (3.3): 


X = X- -ll'X = PX, 

n 

donde la matriz cuadrada P esta definida por 


P 



n 


(3.6) 
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y es simetrica e idempotente (compruebe el lector que PP = P). La matriz P t-iene rango 
n — 1 (es ortogonal al espacio definido por el vector 1, ya que PI = 0) y proyecta los 
datos ortogonalmente al espacio definido por el vector constante (con todas las coordenadas 
iguales). Entonces la matriz S puede escribirse: 

S = -X'X = -X'PX. (3.7) 

n n 

Algunos autores definen la matriz de covarianzas dividiendo por n — 1 en lugar de n para 
tener un estimador insesgado de la matriz de la poblacion. Este divisor aparece, como en el 
caso univariante, porque para calcular la variabilidad no tenemos n desviaciones independi- 
entes sino solamente n — 1. En efecto, los n vectores de desviaciones (x, — x) estan ligados 
por la ecuacion 


5^(xi - x) = 0 

1=1 

y solo podemos calcular n — 1 desviaciones independientes. Si dividimos la suma por ese 
numero se obt-iene una estimacion insesgada de la varianza. En este libro llamaremos m-atriz 
de varianzas corregida , S al estimador insesgado dado por 

S = —X'X 

n — 1 

Ejemplo 3.2 La tabla A. 7 del apendice de datos ACCIONES presenta tres medidas de 
rentabilidad de 34 acciones en bolsa durante un periodo de tiempo. La primera, x\ es la 
rentabilidad efectiva por dividendos ( dividendos repartidos por accion divididos por precio de 
la accion), X 2 es la proporcion de beneficios que va a dividendos (beneficios repartidos en 
dividendos sobre beneficios totales) y X 3 es el cociente entre precio por accion y beneficios. 
La tabla 3-4 presenta las medidas descriptivas de las tres variables. 


X! (rentab.) x 2 (benef.) 


Medias 9.421 69.53 

D. Ti'picas 5.394 24.00 

Coef. asimetn'a 0.37 0.05 

Coef. kurtosis 1.38 1.40 


x 3 (precio) 
9.097 
4.750 
2.71 
12.44 


Tabla 3.4: Analisis descriptivo de la rentabilidad de las acciones 


Las medidas de asimetna y kurtosis indican un alejamiento de la distribucion normal 
para las tres variables: las dos primeras tienen valores muy bajos de la kurtosis, lo que 
indica alt-a heterogeneidad, posiblemente por la presencia de dos grupos de datos distintos, y 
la tercera tiene alt-a kurtosis, lo que sugiere la presencia de valores at-ipicos. 

Estas caracteristicas son muy claras en los histogramas de las variables. La primera 
variable, rentabilidad efectiva por dividendos, x\, muestra dos grupos de acciones con com- 
portamiento distinto. El histograma de la segunda variable, muestra t-am-bien dos grupos 
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de acciones. Finalmente, la distribution de la tercera variable es muy asimetrica, con un 
valor attpico muy destacado. La evidencia disponible indica que las acciones pueden proba- 
blemente dividirse en dos grupos mas homogeneos. Sin embargo, vam.os a ilustrar el analisis 
de todos los datos. 


Histograma de la rentabilidad por dividendos. 


Figura 3.2: Histograma de la proportion de beneficios que va a dividendos 
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Figura 3.3: Histograma del precio por accion con relacion a 
La matriz de varianzas y covarianzas de estas tres variables se 


los beneficios (per) 
presenta en la tabla 3.5 


X l 

^2 

*3 

29.1 

100.4 

-15.7 

100.4 

576 

-18.5 

-15.7 

-18.5 

22.6 


Tabla 3.5: Matriz de covarianzas de las acciones 

Los elementos diagonales de esta m.atriz son los cuadrados de las desviaciones tipicas de 
la tabla 3-4- Como las dimensiones de las variables son distintas, no tiene sentido calcular 
medidas promedio. 

Los histogramas de las tres variables han mostrado una clara falta de normalidad. Una 
posibilidad, que estudiaremos con mas detalle en el capitulo siguiente, es transformer las 
variables para facilitar su interpretacion. Tom.ando logaritmos, la matriz de covarianzas de 
las variables transformadas, se indica en la tabla 3.6 


logxi 

logx 2 

logX3 

.35 

.15 

-.19 

.15 

.13 

-.03 

-.19 

-.03 

.16 


Tabla 3.6: Matriz de covarianzas de las acciones 

Se observa que los logaritmos modifican mucho los resultados. Los datos ahora son mas 
homogeneos y la variable de mayor varianza pasa a ser la primera, el logaritmo de la rentabil- 
idad efectiva, mientras que la menor es la segunda, el logaritmo de la proporcion de ben- 
eficios que va a dividendos. La relacion entre el logaritmo del ratio precio /beneficios (X 3 ) y 
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la rentabilidad efectiva es negativa. Las otras relaciones son debiles. Una ventaja adicional 
de los logaritmos es que hace las variables independientes de la escala de medida: Si mul- 
tiplicamos las variables por una constante al tomar logaritmos esto es equivalente a sum.ar 
una cantidad y sum.ar una constante a los datos no altera su variabilidad. Por tanto, al 
tomar logaritmos en las variables las varianzas pueden compararse aunque los datos tengan 
distintas dimensiones. La varianza media de las tres variables es 


Var 


.35 + .13 + .16 
3 


.213 


y parece describir razonablemente la variabilidad de las variables. 


3.4.2 Propiedades 

Asf como la varianza es siempre un numero no negativo, la matriz de varianzas y covarianzas 
tiene una propiedad similar: es semidefinida positiva. Esta propiedad asegura que si y es 
cualquier vector, y'Sy > 0. Tambien la traza, el determinante y los valores propios de esta 
matriz son no negativos. 


Demostracion 

Sea w cualquier vector de dimension p, definamos la variable escalar: 


Vi - w'(x, - x). 


(3.8) 


La media de esta variable sera: 


v = 


- Vi = _w/ _ x ) = °> 
i=i i=i 

y la varianza debe ser forzosamente no negativa, con lo que: 


1 / l -4 I l 

Var(v) = - ^2 v i = ~ _ x )] t( Xi _ x ^ w ] - 0 

i = 1 i= 1 

= w'Sw > 0. 

Como la ecuacion anterior es valida para cualquier vector w, concluimos que S es semi- 
definida positiva. Esta condicion tambien implica que si Sw, = A,w () , entonces A* > 0. 
Finalment.e, todos los menores principales son no negativos (en particular |S|>0). 
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3.4.3 Variables redundantes: El caso con Matriz S singular 

Vamos a analizar las consecuencias de que la matriz S sea singular. Observemos que si existe 
algun vector w t-al que w'Sw = 0, entonces la variable (3.8) tiene varianza nula y al tener 
media cero esta variable siempre t.oma el valor cero. Por tanto para cualquier i: 

p 

'52 w j (x ij -Xj) = 0 Vi 

3 = 1 

Esta ecuacion implica que las p variables no son independientes, ya que podemos despejar 
una cualquier a en funcion de las demas: 


= xi {x i2 - x 2 ) - ... [x ip - x p ). 

W 1 W 1 

Por tanto, si existe algun vector w que haga w'Sw = 0, existe una relacion lineal exacta 
entre las variables. Lo contrario es tambien cierto. Si existe una relacion lineal entre las 
variables podemos escribir w'(xj — x) =0, para todo elemento, es decir 


Xw = 0, 

multiplicando esta expresion por la derecha por la matriz X' y dividiendo por n: 


-X'Xw = Sw = 0. (3.9) 

n 

Esta condicion implica la matriz S tiene una rai'z caracterfstica o autovalor igual a cero y 
w es el vector caracteristico asociado a la rai'z caracterfstica cero. Multiplicado eu (3.9) por 
w' se obtiene (Xw)'(Xw) = 0, que implica Xw = 0, y concluimos que una variable es una 
combinacion lineal exacta de las otras. En consecuencia, es posible reducir la dimensionalidad 
del sistema eliminando esta variable. Observemos, ademas, que las coordenadas del vector 
w indican la combinacion lineal redundante. 


Ejemplo 3.3 La matriz de covarianzas siguiente corresponde a cuatro variables simuladas 
de m.anera que tres de ellas son linealmente independientes, pero la cuarta es el promedio de 
las dos primeras. 


S 


.0947 .0242 .0054 
.0242 .0740 .0285 
.0054 .0285 .0838 
.0594 .0491 .0170 


.0594 

.0491 

.0170 

.0543 


Los autovalores de esta matriz calculados con Matlab son (0, 172 97; 0, 08 762, 0,04617 y 
0, 00005). El menor valor propio es practicamente cero comparado con los otros tres , por lo 
que la matriz tiene, muy aproximadamente, rango 3. El vector propio asociado a este valor 
propio nulo es ( -408 . 4 O 8 .000 -.816 ). Dividiendo por el termino mayor este vector propio 
puede escribirse como (.5 .5 0 -1), que revela que la falta de rango completo de la matriz de 
covarianzas es debido a que la cuarta variable es el promedio de las dos primeras. 
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Ejemplo 3.4 En la tabla A. 2 del anexo de datos figura una base de datos denominada 
EUROSEC compuesta por 26 paises en los que se ha medido el porcentaje de poblacion que 
se dedica a cada uno de 9 sectores economicos. El calculo de los autovalores de la matriz de 
varianzas covarianzas correspondiente a estos datos se presenta a continuacion y se observa 
que hay un autovalor muy proximo a 0 (.0019). Si este autovalor no es exactamente cero es 
debido a que en la tabla de datos la suma de las filas no es exactamente 100% en todos los 
casos por errores de redondeo (varia entre 99,8% y 102%) 



Sin embargo, este autovalor tan pequeho define una variable escalar que no tiene prac- 
ticamente variabilidad. Para determinarla, obtenemos el vector propio ligado a este valor 
propio, que es el vector (.335, .324, -337, .339, .325, .337, .334, -332, .334). Este vector 
es aproximadamente el vector constants, lo que indica que la suma de todas las variables da 
lugar a una variable escalar aproximadamente constante. 

El segundo valor propio es tambien bastante pequeho. El vector propio correspondiente 
es (-0.07, -0.29, -0.07, 0.91, 0.00, -0.10, -0.12, -0.05, -0.22). Este vector propio esta deter- 
m.inado por la variable cuarta, que tiene mucho mas peso que las demas. Esto sugiere que la 
variable cuarta, sector de la energia, debe tener un peso muy similar en todos los paises. La 
matriz de varianzas y covarianzas de las variables es: 

241.6 

0.53 0.94 

- 73.11 3.02 49.10 

- 2.33 0.14 1.01 0.14 

- 13.77 - 0.04 5.70 0.03 2.70 

- 52.42 1.76 6.53 0.34 2.68 20.93 

9.59 - 1.20 - 3.06 0.11 0.07 4.69 7.87 

- 79.29 - 1.86 7.37 0.34 1.77 17.87 2.06 46.64 

- 12.22 0.21 3.41 0.19 0.88 1.19 - 0.96 5.39 1.93 

Se observa como la cuarta variable tiene mucha menor variabilidad que las demas. 

Generalizacion 

Este procedimiento puede extenderse para cualquier numero de valores propios nulos: si S 
tiene rango h < p, existen p — h variables redundantes que pueden eliminarse. Los vectores 
asociados a autovalores nulos indican la composicion de estas variables redundantes. En 
efecto, si S tiene rango h ese sera el numero de valores propios uo nulos, y exist-iran r = p — h 
vectores que verifican : 

Swi = 0 

Sw r = 0 

o lo que es equivalente, existeu r relaciones del tipo 


(xj — x)'wj = 0, j — 1 , ..., r 
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que implica la existencia de r combinaciones lineales exactas entre las variables. Podemos 
pues representar las observaciones con h — p —r variables. Existen muchas posibles repre- 
sentations, ya que cualquier vector del subespacio definido por (wi, ..., w r ) puede expresarse 
como una combination lineal de estos vectores y verifica: 


S(aiW! + ... + a r w r ) = 0 


Los r vectores propios de S asociados a valores propios nulos constituyen una base orto- 
normal (vectores perpendiculares y de modulo unitario) en dicho espacio. Observemos que 
cuando hay mas de una rafz nula, las relaciones lineales entre las variables no estan definidas 
umvocamente, ya que dadas dos relaciones lineales nulas cualquier nueva relation que resulte 
combinando est-as dos tendra la misma propiedad. 

Una forma alternativa de analizar el problema es la siguiente. Como 

s = -x'x, 

n 

el rango de S coincide con la matriz X, ya que para cualquier matriz A, si llamamos rg( A) 
al rango de A, se verifica siempre que: 

rg{ A) = rg(A') = rg( A' A) = rg(AA'). 

Por tanto si la matriz X tiene rango p. este sera tambien el rango de S. Sin embargo, si 
existen h combinaciones lineales entre las variables X, el rango de la matriz X sera p— h, y 
este sera tambien el rango de la matriz S. 

Ejemplo 3.5 Calculemos los vectores propios de la matriz de varianzas y covarianzas para 
los datos de ACCIONES de la tabla A. 7, que fueron analizados en el ejemplo 3.2. Los 
valores propios de la matriz de las variables originales son (594-86, 29.82, 3.22) y vemos 
que existe un valor propio muy grande y dos pequenos, en particular el valor mas pequeno 
esta ligado al vector propio ( 0.82, -0.13, 0.55). Para las variables en logaritmos los valores 
propios son (0, 5208; 0, 1127 y 0.0065). Ahora existe un valor propio mucho mas pequeno 
que los otros dos, y su vector propio es (57, -.55, .60). 

Para interpretar la variable definida por este vector propio escribamos su expresion en 
funcion de las variables originales. Recordando la definicion de las variables y llamando d a 
los dividendos, p al precio, B al beneficio y N al numero de acciones, suponiendo que la gran 
mayoria de los beneficios que se reparten van a dividendos (lo que es solo una aproximacion) 
podemos escribir, 

y —. 57\.og{d/p ) — .55 log (dN/B) + .60 log (p/B/N) 
y, redondeando, esta variable sera, aproximadamente, 
y = .6 log (d/p)(B/dN)(pN/B) = .6 log 1 = 0 

Es decir, llamando X j a las variables en logaritmos, la variable definida por la combi- 
nacion X\ — X 2 + X 3 debe tomar valores pequenos. Si construimos esta variable a partir de 
los datos, su media es .01 y su varianza .03, que es mucho menor que la de las variables 
originales. Comprobamos que esta variable tiene poca variabilidad pero, al no ser constants, 
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no hay una relacion determinista entre las tres variables en logaritmos. Los beneficios repar- 
tidos aparte de los dividendos aunque pequehos en promedio, no son despreciables para al- 
gunas acciones. Observemos que esta inform, acion, que es revelada por el analisis de los 
vectores propios de la matriz de covarianzas, puede pasar facilmente desapercibida al lector 
no experto que trabaja directamente con estas medidas de rentabilidad. 

3.5 MEDIDAS GLOBALES DE VARIABILIDAD 

Cuando las variables se miden en las mismas unidades (euros, km) o son adimensionales 
(porcentajes, proporciones, etc) interesa encontrar medidas de la variabilidad promedio que 
permitan comparar distintos conjuntos de variables. Vamos a obt-ener primero estas me- 
didas globales como resumen de la matriz de varianzas y covarianzas y, en segundo lugar, 
interpretaremos estas medidas mediant-e el concepto de dist-ancias entre puntos. 

3.5.1 La variabilidad total y la varianza promedio 

Una forma de resumir la variabilidad de un conjunto de variables es mediant-e la traza de su 
matriz de varianzas y covarianzas y se define la variabilidad total de los datos por: 

T = tr(S)=y>? 

1=1 

y la varianza promedio por 



El inconveniente de esta medida es que no t-ienen en cuenta la estructura de dependencia 
entre las variables. Para ilustrar el problema supongamos p = 2 y el caso ext-remo en que 
ambas variables son la misma, pero en unidades distint-as. Entonces, la variabilidad conjunta 
de las dos variables en el espacio es nula, porque los puntos est-an siempre forzados a est-ar 
sobre la recta que define la relacion lineal entre las dos variables, y, sin embargo, s 2 puede 
ser alt-a. En general, si la dependencia entre las variables es muy alt-a, intuitivamente la 
variabilidad conjunta es pequena, ya que conocida una variable podemos determinar aprox- 
imadament-e los valores de las demas. Est-e aspecto no queda recogido en esta medida, que 
prescinde de las relaciones de dependencia existentes. 

3.5.2 La Varianza Generalizada 

Una medida mejor de la variabilidad global es la varianza generalizada, que es el determinante 
de la matriz de varianzas y covarianzas, es decir 

VG= |S| 

Su rai'z cuadrada se denomina desviacion tipica generalizada, y tiene las propiedades sigu- 
ient-es: 
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a) Esta bien definida, ya que el determinante de la matriz de varianzas y covarianzas es 
siempre no negat.ivo. 

b) Es una medida del area (para p = 2), volumen (para p = 3) o hipervolumen (para 
p > 3) ocupado por el conjunto de datos. 

Para aclarar estas ideas, supongamos el caso p = 2. Entonces, S puede escribirse: 

g = [ 4 rS xSy 

[ rs x s y si 

y la desviacion ti'pica generalizada es: 

| S | 1//2 = s x s y Vl — r 2 (3-11) 

Si las variables son independientes, la mayorfa de sus valores estaran dentro de un rectan- 
gulo de lados 6s x , 6 s y ya que, por el teorema de Tchebychev, entre la media y 3 desviaciones 
tfpicas deben estar, aproximadamente, al menos el 90% de los datos. En consecuencia, el area 
ocupada por ambas variables es directamente proporcional al producto de las desviaciones 
tfpicas. 

Si las variables estan relacionadas linealmente y el coeficiente de correlation es distinto 
de cero, la mayorfa de los puntos tenderan a situarse en una franja alrededor de la recta de 
regresion y habra una reduccion del area tanto mayor cuanto mayor sea r 2 . En el lfmite, 
si r 2 = 1, todos los puntos estan en una lfnea recta, hay una relation lineal exact-a entre 
las variables y el area ocupada es cero. La formula (3.11) describe esta contraction del area 
ocupada por los puntos al aumentar el coeficiente de correlacion. 

Un inconveniente de la varianza generalizada es que uo sirve para comparar conjuntos 
de datos con distinto numero de variables, ya que tiene las dimensiones del producto de las 
variables incluidas. Si anadimos a un conjunto de p variables que tiene una varianza general- 
izada S p una variable adicional, incorrelada con el resto y varianza s 2 +1 , es facil comprobar, 
con los resultados del calculo del determinante de una matriz particionada presentados en 
2.3.5, que 


IVil — l®pl ^p+i 

y eligiendo las unidades de medida de la variable p + 1 podemos hacer que la varianza 
generalizada aumente o disminuya a voluntad. Supongamos el caso mas simple donde la 
matriz S es diagonal y las variables van expresadas en las mismas unidades, por ejemplo 
euros. Entonces 


IS I — e 2 e 2 
l°pl _ O 1 . . . . Sp 

Supongamos que t-odas las varianzas en euros son mayores que la unidad. Entonces, si 
anadimos una variable p+l , la nueva varianza generalizada sera 


|Sp+i| — s 1 ....s s + i — |S 


■’pi *p+i 


> IS, 
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ya que s p > 1. Eli este caso la varianza generalizada aumenta monotonamente al consid- 
erar nuevas variables, es decir, llamando S 7 a la varianza generalizada de las primeras j 
variables, tenemos que 

\S P \ > |Sp_i| .... > | S 2 1 > si 

Supongamos ahora que expresamos las variables en miles de euros y con este cambio todas 
las varianzas son ahora menores que la uuidad. Entonces la varianza generalizada disminuye 
monotonamente al incluir variables. 

3.5.3 La variabilidad promedio 

Para evitar estos inconvenientes, Pena y Rodriguez (2000) han propuesto como medida 
global de variabilidad la variabilidad promedio, dada por 

VP = |S| 1/p (3.12) 

que tiene la veut.aja de que cuando todas las variables van en las mismas dimensiones esta 
medida tiene las unidades de la varianza. Para matrices diagonales esta medida es sim- 
plemente la media geometrica de las varianzas. Observemos que, como el determinante es 
el product-o de los valores propios, la variabilidad promedio es la media geometrica de los 
valores propios de la matriz S, que por ser semidefinida posit-iva seran siempre no negat.ivos. 

Como la media geometrica de un conjunto de numeros es siempre menor que su media 
aritmetica esta medida sera siempre menor que la varianza media. La variabilidad promedio 
tiene en cuenta la dependencia conjunta, ya que si una variable fuese combinacion lineal 
de las demas al exist-ir un valor propio nulo, la medida (3.12) es nula, mientras que la 
varianza media, dada por (3.10) no lo sera. Veremos en los capi'tulos siguientes que la 
variabilidad promedio y la varianza media tienen una gran importancia en los procedimientos 
multivariantes. 

Analogamente podemos definir la desviacion promedio mediante 

DP = |S| 1/2p . 

Ejemplo 3.6 Partiendo de la matriz de covarianzas S para los logaritmos de las acciones, 
datos A. 7, ACCIONES, del ejemplo 3.5, obtenemos que 

| S' | = 0.000382 


La variabilidad promedio es 

VP = |S| 1/3 = .0726 

que podemos comparar con la media aritmetica de las tres varianzas que calculamos en el 
ejemplo 3.2: 


tr( S)/3 = .2133 
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Como vernos, la fuerte dependencia entre las variables hace que la variabilidad real promedio, 
cuando se tienen en cuenta las covarianzas, sea mucho menor que cuando se prescinde de 
ellas y se calcula el promedio de las varianzas. 

Para las desviaciones tipicas 


DP = |S| 1/6 = .269 

que podemos tomar como medida global de variabilidad en los datos originales. 

Ejemplo 3.7 La matriz de varianzas y covarianzas para los datos de las medidas fisicas es 


100.24 

104.49 

26.12 

44.22 

33.20 

10.64 

26.19 

104.49 

158.02 

30.04 

50.19 

41.67 

14.08 

27.99 

26.12 

30.04 

7.91 

11.66 

8.86 

2.79 

7.42 

44.22 

50.19 

11.66 

23.69 

15.4 

4.18 

11.55 

33.20 

41.67 

8.86 

15.4 

15.59 

4.48 

7.72 

10.64 

14.08 

2.79 

4.18 

4.48 

3.27 

3.11 

26.19 

27.99 

7.42 

11.55 

7.72 

3.11 

9.61 


y la medida promedio VP = |S'| 1 ^ 7 = 5.7783 y VP 1 / 2 3 =2-4038. Como existe bastante de- 
pendencia estas medidas son mucho menores de los promedios de las varianzas. Por ejemplo 
tr(S)/7=45-48. Observemos que esta medida no tiene, en este ejemplo, clara inter pretacion, 
al estar las variables en distintas unidades. 


3.6 VARIABILIDAD Y DISTANCIAS 

Un procedimiento alternative para estudiar la variabilidad de las observaciones es utilizar el 
concepto de distancias entre puntos. En el caso escalar, la distancia entre el valor de una 
variable x en un punto, Xi, y la media de la variable, x, se mide de manera natural mediante 
\J (xi — x) 2 , o, lo que es equivalents, por el valor absoluto de la diferencia, \xi — x\ . La 
desviacion ti'pica es un promedio de estas distancias entre los puntos y su media. Cuando 
disponemos de una variable vectorial, cada dato es un punto en 0', y podemos pensar en 
construir medidas de variabilidad promediando las distancias entre cada punto y el vector de 
medias. Esto requiere generalizar el concepto de distancia a espacios de cualquier dimension. 
El concepto de distancia entre puntos sera importante en los capi'tulos siguientes. 

3.6.1 El concepto de distancia 

Dados dos puntos x, : . x y pertenecientes a , diremos que hemos establecido una distancia, 
o una metrica, entre ellos si hemos definido una funcion d con las propiedades siguientes: 

1. d : x5R p — > 9ft + , es decir, dados dos puntos en el espacio de dimension p su distancia 

con esta funcion es un nurnero no negat-ivo, rf(xj,Xj) >0; 

2. d(xj,Xj) = 0 Vi, la distancia entre un elemento y sf mismo es cero. 

3. d(xj,Xj) = d(xj,Xj), la distancia es una funcion simetrica en sus argument-os. 
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4. rf(xj, Xj) < d(xj, Xp) + rf(xp, Xj), la distancia debe verificar que si tenemos tres puntos, 
la suma de las longitudes de dos lados cualesquiera del triangulo formado por los tres 
puntos debe siempre ser mayor que el tercer lado. Esta propiedad se conoce como la 
propiedad triangular. 


Estas propiedades generalizan la notion iutuitiva de distancia entre dos puntos sobre una 
recta. Una familia de medidas de distancia muy habituates en es la familia de metricas 
o distancias de Minkowski, que se define en funcibn de un parametro r por 



p \ U r 

^ ^ (-Us 'b/X ) I 


(3.13) 


y las potencias mas utilizadas son r = 2, que conduce a la distancia euch'dea, o en L 2 , 


dij ( ^ Xjs) 


1/2 


= ( x * - x j)'( x i - x j) 1/2 , 


. 5=1 


y r = 1, que se denomina distancia en L \ : 


= |xj - Xj |'l, 


donde 1' = (1, . . . , 1). 

La distancia mas utilizada es la euch'dea pero tiene el iuconvenieute de depender de las 
imidades de medida de las variables. Por ejemplo, sea x la estatura de una persona en metros 
e y su peso en kilogramos. Compararemos la distancia entre tres personas: A (1.80, 80), 
5(1.70, 72) y C( 1.65, 81). El cuadrado de la distancia euch'dea del individuo A al B sera: 

d 2 (A, B ) = (1.80 - 1.70) 2 + (80 - 72) 2 = .l 2 + 8 2 = 64.01 

y, analogamente d 2 (A, C) = .15 2 + 1 = 1.225. Por tanto, con la distancia euch'dea el individuo 
A est-ara mucho mas cerca del individuo C que del B. Supongamos que, para hacer los 
numeros mas similares, decidimos medir la estatura en centi'metros, en lugar de metros. Las 
nuevas coordenadas de los individuos son ahora A(180,80), 5(170,72) y (7(165,81), y las 
distancias euch'deas entre los individuos se transforman en d~{A. 5) = 10 2 + 8 2 = 164 y 
d 2 (A, C ) = 15 2 + 1 = 226. Con el cambio de unidades, el individuo A esta con la distancia 
euch'dea mas cerca del B que del C. La distancia euch'dea depende mucho de las unidades de 
medida, y cuando no existe una unidad fija natural, como en este ejemplo, no esta justificado 
utilizarla. 

Una manera de evitar el problema de las unidades es dividir cada variable por un termino 
que elimine el efecto de la escala. Esto conduce a la familia de metricas euch'deas ponderadas, 
que se definen por 


1/2 


dij = [(x, - x. rlYI fx, - x j 


(3,14) 
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donde M es una matriz diagonal que se utiliza para estandarizar las variables y hacer la 
medida invariants ante cambios de escala. Por ejemplo, si colocamos en la diagonal de M 
las desviaciones tfpicas de las variables, la expresion (3.14) se conviert-e en 


dij 





1/2 


que puede verse como una distancia eucli'dea donde cada coordenada se pondera inversamente 
proporcional a la varianza. Por ejemplo, si suponemos que las desviaciones tfpicas de las 
variables altura y peso son 10 cm y 10 kgr, las distancias estandarizadas al cuadrado entre 
los individuos anteriores son 


d\A,B) = (1 + 0,8 2 ) = 1,64 
y 

d 2 (A,C) = (1, 5 2 + 0, l 2 ) =2,26. 

Con esta metrica, que es mas razonable, A esta mas proximo a B que a C. 

En general la matriz M puede no ser diagonal, pero siempre debe ser una matriz no 
singular y definida positiva para que d,j > 0. En el caso particular en que tomemos M = I 
se obtiene de uuevo la distancia euclidea. Si tomamos M = S se obtiene la distancia de 
Mahalanobis que est-udiamos a continuation. 

3.6.2 La Distancia de Mahalanobis 

Se define la distancia de Mahalanobis entre un punto y su vector de medias por 

di = [(xj - x)'S _1 (xj - x )] 1/2 

Es frecuente referirse al valor d 2 tambien como distancia de Mahalanobis, en lugar de 
como cuadrado de la distancia, y en este libro, para simplificar, utilizaremos a veces esta 
licencia, aunque estrictamente la distancia es d, . Vamos a interpretar esta distancia y compro- 
bar que es una medida muy razonable de distancia entre variables correladas. Consideremos 
el caso p = 2. Entonces, escribiendo S\ 2 = rs\s 2 . tenemos que 

-rs^sz 1 s 2 2 

y la distancia de Mahalanobis (al cuadrado) entre dos punt-os (aq, yi), (x 2 , y 2 ) puede escribirse 


s- x = 


(1 


d 2 ~ 

dM ~ (1 — r 2 ) 


' (xi - x 2 ) 2 , (yi - y 2 ) 2 (an - x 2 ) (yi - y 2 ) ' 

2^2 ^ 

si si sis 2 


Si r = 0, esta distancia se reduce a la distancia eucli'dea estandarizando las variables por sus 
desviaciones tfpicas. Cuando 0 la distancia de Mahalanobis ahade un termino adicional 
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que es positivo (y por lo tanto “separa” los punt-os) cuando las diferencias entre las variables 
tienen el mismo signo, cuando r > 0, o dist-into cuando r < 0. Por ejemplo, entre el peso 
y la altura hay correlacion positiva: al aumentar la estatura de una persona en promedio 
tambien lo hace su peso. Si consideramos las tres personas anteriores .4 (180, 80), /if 170, 72) 
y (7(165,81) con desviaciones ti'picas 10 cm y 10 kgr y el coeficient-e de correlacion 0,7, los 
cuadrados de las distancias de Mahalanobis seran 

d 1 2 M (A, B) = -L [1 + 0, 8 2 - 1, 4 x 0, 8] = 1.02 

y 

d 2 M (A, C) = [1, 5 2 + 0, l 2 + 1, 4 x 1, 5 x 0, 1] = 4.84, 

concluimos que el individuo A esta mas cerca del B que del C con esta distancia. La distancia 
de Mahalanobis tiene en cuenta que, aunque el individuo B es mas bajo que el A, como hay 
correlacion entre el peso y la altura si su peso tambien disminuye proporcionalmente, el 
aspect-o fi'sico de ambos es similar porque aunque cambia el tamano global no cambia la 
forma del cuerpo. Sin embargo, el individuo C es t-odavi'a mas bajo que el A y ademas pesa 
mas, lo que implica que su aspecto fi'sico es muy dist-into del de A. Como consecuencia, la 
distancia de A a C es mayor que a B. La capacidad de est-a distancia para t-ener en cuenta la 
forma de un elemento a partir de su estructura de correlacion explica su introduction por P. 
C. Mahalanobis, un eminent-e estadi'st-ico indio, en los anos 30 para comparar medidas fi'sicas 
de razas en la India. 


3.6.3 La distancia promedio 

Podri'amos plantearnos construir una medida global de la variabilidad respecto a la media 
de una variable vectorial escogiendo promediando las distancias entre los punt-os y la media. 
Por ejemplo, si t-odas las variables van en las mismas unidades, podemos t-omar la distancia 
euch'dea al cuadrado y promediar por el numero de terminos en la suina: 

1 n 

Vm= - y> - x)'(Xj - x) 

n z — ' 

i= 1 

Como un escalar es igual a su t-raza, podemos escribir 

n n 1 

= T: tr -(Xj - x)(xj - x) 7 = tr( S) 
i=i L 

y el promedio de distancias es la variabilidad total. Si promediamos las distancias tambien 
por la dimension del vector, t-enemos que: 

1 n 

V m , P = — y> - x)'(xj - x) = s 2 

np /—j 



(3.15) 


(3.16) 
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y el promedio estandarizado de las distancias euch'deas entre los puntos y la media es el 
promedio de las varianzas de las variables. 

No t-iene sent-ido definir una medida de distancia promediando las distancias de Maha- 
lanobis, ya que es facil comprobar (vease ejercicio 3.12) que el promedio de las distancias de 
Mahalanobis es siempre p. y el promedio estandarizado por la dimension del vector es uno . 


Ejemplo 3.8 La tabla adjunta presenta para los datos de las medidas fisicas, MEDIFIS, las 
distancias euclideas al cuadrado de cada dato a su media, cP e , las distancias de Mahalanobis 
de cada dato a su media, D 2 M , la maxim, a distancia euclidea entre cada punto 
muestra, d 2 m , el orden del dato mas alejado con esta distancia, I e , la maxim, a 
Mahalanobis entre cada punto y otro de la muestra, D 2 Mm , y el orden del dato 
con esta distancia, Im- 

orden d* D 2 M d 2 em I e D 2 Mm I M 

1.0000 3.8048 0.0226 29.0200 24.0000 29.0200 24.0000 

2.0000 0.3588 0.0494 15.4800 24. 0000 15.4800 24.OOOO 

3.0000 0.2096 0.044? 10.0600 20.0000 10.0600 20.0000 

4.0000 1.6899 0.0783 20.5925 24. 0000 20.5925 24. 0000 

5.0000 2.2580 0.0759 23.8825 24. 0000 23.8825 24. 0000 

6.0000 0.8336 0.0419 15.6000 24. 0000 15.6000 24. 0000 

7.0000 2.8505 0.0830 23.5550 24. 0000 23.5550 24. 0000 

8.0000 3. 081 4 0.0858 20.3300 20.0000 20.3300 20.0000 

9.0000 3.6233 0.0739 21.7750 20.0000 21.7750 20.0000 


10 

0000 

3.5045 

0.0348 

28.1125 

24.0000 

28.1125 

24.0000 

11 

0000 

2.0822 

0.0956 

20.2900 

24.0000 

20.2900 

24.0000 

12 

0000 

0.6997 

0.1037 

11.5425 

20.0000 

11.5425 

20.0000 

13 

0000 

6.2114 

0.0504 

34.7900 

24.0000 

34.7900 

24.0000 

U 

0000 

2.2270 

0.0349 

18.2700 

20.0000 

18.2700 

20.0000 

15 

0000 

4.2974 

0.1304 

23.2200 

20.0000 

23.2200 

20.0000 

16 

0000 

10.5907 0.1454 35.6400 20.0000 35.6400 20.0000 

17 

0000 

1.7370 

0.0264 

16.9000 

20.0000 

16.9000 

20.0000 

18 

0000 

0.7270 

0.0853 

14.1100 

24.0000 

14.1100 

24.0000 

19 

0000 

4.5825 

0.1183 

30.5500 

24.0000 

30.5500 

24.0000 

20 

0000 

7.8399 

0.0332 

39.1100 

24.0000 

39.1100 

24.0000 

21 

0000 

44996 

0.0764 

23.9600 

20.0000 

23.9600 

20.0000 

22 

0000 

0.5529 

0.0398 

12.3100 

20.0000 

12.3100 

20.0000 

23 

0000 

3.9466 

0.0387 

29.3900 

24.0000 

29.3900 

24.0000 

24 

0000 

11.9674 0.0998 39.1100 20.0000 39.1100 20.0000 

25 

0000 

0.4229 

0.0745 

10.6500 

20.0000 

10.6500 

20.0000 

26 

0000 

0.2770 

0.0358 

10.5850 

20.0000 

10.5850 

20.0000 

27 

0000 

0.9561 

0.1114 

17.6050 

24.0000 

17.6050 

24.0000 


Se observa que con la distancia euclidea los puntos mas alejados de la media son el 24 
y el 16, seguidos del 20. El punto mas extremo para cada uno es el 24 0 el 20, lo que 
define a estos puntos como extremes en el espacio con esta medida. Con las distancias de 
Mahalanobis los mas alejados de la media son los 15 y 16 pero, sin embargo, los puntos que 


y otro de la 
distancia de 
mas alejado 



3. 7. MEDIDAS DE DEPENDENCIA LINEAL 


91 


aparecen como extremos de la muestra son de nuevo los 20 y 24- Observando estos datos, el 
24 correponde a un hornbre muy alto , el mayor de la muestra, y el 20 a una mujer de baja 
estatura y delgada, que constituye el extremo opuesto de los datos. 


3.7 MEDIDAS DE DEPENDENCIA LINEAL 

Un objet-ivo fundamental de la description de los datos multivariantes es comprender la 
estructura de dependencias entre las variables. Estas dependencias pueden estudiarse: (1) 
entre pares de variables; (2) entre una variable y todas las demas; (3) entre pares de variables 
pero eliminando el efecto de las demas variables; (4) entre el conjunto de todas las variables. 
Vamos a analizar estos cuatro aspectos. 


3.7.1 Dependencia por pares: La matriz de correlacion 


La dependencia lineal entre dos variables se estudia mediant-e el coeficient-e de correlation 
lineal o simple. Este coeficiente para las variables x 3 , Xk es: 


r jk 


S jk 

SjSk 


y tiene las propiedades siguientes: (1) 0 < r ]k < 1; (2) si existe una relation lineal exacta en- 
tre las variables, x i3 = a + bx ik , entonces \r jk \ = 1; (3) r jk es invariants ante transformaciones 
lineales de las variables. 

La dependencia por pares entre las variables se mide por la matriz de correlacion. Lla- 
maremos matriz de correlacion, R, a la matriz cuadrada y simetrica que tiene unos en la 
diagonal principal y fuera de ella los coeficientes de correlation lineal entre pares de variables, 
escribiremos: 


R = 


1 r 12 ... rip 

r p 1 r p 2 ... 1 


Esta matriz es tambien semidefinida positiva. Para demostrarlo, llamemos D = D(S) a 
la matriz diagonal de orden p formada por los element-os de la diagonal principal de S, que 
son las varianzas de las variables. La matriz D 1 / 2 cont-endra las desviaciones tfpicas y la 
matriz R esta relacionada con la matriz de covarianzas, S, mediante: 

R = D” 1/2 SD~ 1/2 , (3.17) 

que implica 

S = D 1/2 RD 1/2 . (3.18) 


La condition w'Sw > 0 equivale a: 

w'D 1/2 RD 1/2 w = z'Rz > 0 


llamando z = D 1//2 w al nuevo vector transformado por D 1 / 2 . Por tant-o, la matriz R es, 
como la matriz S, semidefinida positiva. 
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3.7.2 Dependencia de cada variable y el resto: Regresion Multiple 

Ademas de estudiar la relation entre pares de variables podemos estudiar la relation entre 
una variable y todas las demas. Hemos visto que si una variable es combination lineal de 
las demas, y por lo tanto puede predecirse sin error con el resto, debemos eliminarla de 
consideration. Es posible que, sin llegar a esta situation extrema, haya variables que sean 
muy dependient-es de las demas y conviene medir su grado de dependencia. Supongamos que 
Xj es la variable de interes y para simplificar la notation la llamaremos variable explicat-iva 
o respuesta y la denotaremos por y. A continuation, consideremos su mejor predictor lineal 
a partir de las restantes variables, que llamaremos variables explicativas o regresores. Este 
predictor lineal t-endra la forma: 

yi = V + Pi(xi 1 -x 1 ) + ..> + p p (x ip -x p ), i = l,...,n (3.19) 

y se comprueba que cuando las variables explicativas toman un valor igual a su media la 
variable respuesta es tambien igual a su media. Los p — 1 coeficientes 3 k . para k = 1 , . p 
con k 7 ^ j, se deter m i n an de manera que la ecuacion proporcione, en promedio, la mejor 
prediction posible de los valores de y, . Llamando residuos a los errores de prediction, e, = 
y l — y,. es inmediato, sumando para los n datos en (3.19), que la suma de los residuos para 
todos los puntos muestrales es cero. Esto indica que cualquiera que sean los coeficientes 
(3j la ecuacion (3.19) va a compensar los errores de prediction posit-ivos con los negativos. 
Como queremos minimizar los errores con independencia del signo, los elevamos al cuadrado 
y calculamos los /3 • minimizando: 

n 

M = y e ?. 

1=1 


Derivando esta expresion respecto a los parametros (3 se obtiene el sist-ema de p — 1 ecua- 
ciones, para k — 1, ...,p con k ^ j ,: 


n 

2 [ yi ~ y + + ••• + P P ( x hP 

i = 1 


X p ) 


{%ik 3Ck) 


que puede escribirse: 


^ ejX ik = 0 k = l,...,p; ky^j, 

que tiene una clara interpretation intuitiva. Indica que los residuos, o errores de prediction, 
deben de estar incorrelados con las variables explicativas, de manera que la covarianza entre 
ambas variables sea cero. En efecto, si existiese relation entre ambas variables podrfa uti- 
lizarse para prever los errores de prediction y reducirlos, con lo que la ecuacion de prediction 
no podrfa ser optima. Geometricamente este sist-ema est-ablece que el vector de residuos 
debe ser ortogonal al espacio generado por las variables explicativas. Definiendo una matriz 
X/,. de datos para la regresion de dimensiones (n xp - 1) que se obtiene de la matriz de 
datos centrada, X, eliminando la columna de esta matriz que corresponde a la variable que 
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queremos prever, que llamaremos y, el sistema de ecuaciones para obtener los parametros 
es: 


X' R y = X' r X«3 


que conduce a : 

3 = (X' i? X i? )- 1 X' i? y = S p 1 1 S xy . 

donde S p x es la matriz de covarianzas de las p — 1 variables explicativas y S xy la columna de 
la matriz de covarianzas correspondiente a las covarianzas de la variable seleccionada como 
y con el resto. La ecuacion obtenida con estos coeficientes se conoce como la ecuacion de 
regresion multiple entre la variable y = Xj y las variables, Xk, con k = 1, y k ^ j. 

El promedio de los residuos al cuadrado con la ecuacion de regresion multiple para explicar 
Xj es: 

SrU) = — (3.20) 

Tl 

y es una medida de la precision de la regresion para prever la variable y = x 3 . Una medida 
adimensional de la dependencia se construye partiendo de la ident-idad 

Vi ~ V = Vi - V + e* 

y elevando al cuadrado y sumando para todos los puntos se obtiene la descomposicion basica 
del analisis de la varianza, que podemos escribir como: 

VT = VE + VNE 

donde la variabilidad total o inicial de los datos, VT = (?/,; — y 'f , se expresa como suma 

de la variabilidad explicada por la regresion, VE = (y, - y f , y la residual o no explicada 

por la regresion, VNE = )T) ej. Una medida descriptiva de la capacidad predict-iva del 
modelo es el cocient-e entre la variabilidad explicada por la regresion y la variabilidad total. 
Est-a medida se llama coeficiente de determinacion, o coeficiente de correlacion multiple al 
cuadrado, y se define por: 

2 VE VNE 

j- i>--p - VT ~ 1 VT 

donde el subindice indica la variable que estamos explicando y los regresores. Utilizando 
(3.20) podemos escribir 



p2 



(3.22) 


Es immediato comprobar que en el caso de una unica variable explicat.iva R 2 es el cuadrado 
del coeficiente de correlacion simple entre las dos variables. Tambien se comprueba que es 
el cuadrado del coeficiente de correlacion simple entre las variables y y y. El coeficiente de 
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correlation multiple al cuadrado puede ser mayor, menor o igual que la suma de los cuadrados 
de las correlaciones simples entre la variable y y cada una de las variables explicativas (vease 
Cuadras, 1993). 

Segun la ecuacion (3.22) podemos calcular el coeficiente de correlation multiple entre 
cualquier variable x t y las restantes si conocemos su varianza y la varianza residual de una 
regresion de esta variable sobre las demas. Se demuestra en el apendice 3.1 que los terminos 
diagonales de la inversa de la matriz de covarianzas, S -1 , son precisamente las inversas de 
las varianzas residuales de la regresion de cada variable con el resto. Por tanto podemos 
calcular facilmente el coeficiente de correlation multiple al cuadrado entre la variable x 3 y 
las restantes como sigue: 

(1) Tomar el elemento diagonal j de la matriz S, Sjj que es la varianza .s') de la variable. 

(2) Invertir la matriz S y tomar el elemento diagonal j de la matriz S 1 que llamaremos 
s 33 . Este termino es l/s)(j), la varianza residual de una regresion entre la variable j y el 
resto. 

(3) Calcular R) . la correlation multiple como 




i - 


i 


Esta expresion permite obtener inmediatamente todos los coeficientes de correlation multiple 
a partir de las matrices S y S -1 . 


Ejemplo 3.9 La matriz de correlacion para las 7 variables fisicas, tabla A. 5, MEDIFIS, del 
ejemplo 1.1. se presenta en la tabla 1.5. Las variables aparecen en el orden del ejemplo 1.1 


1 

0.83 

0.93 

0.91 

0.84 

0.59 

0.84 

0.83 

1 

0.85 

0.82 

0.84 

0.62 

0.72 

0.93 

0.85 

1 

0.85 

0.80 

0.55 

0.85 

0.91 

0.82 

0.85 

1 

0.80 

0.48 

0.76 

0.84 

0.84 

0.80 

0.80 

1 

0.63 

0.63 

0.59 

0.62 

0.55 

0.48 

0.63 

1 

0.56 

0.84 

0.72 

0.85 

0.76 

0.63 

0.56 

1 


Se observa que la maxima correlacion aparece entre la primera y la tercera variable (estatura 
y longitud del pie) y es 0,93. La minima es entre la longitud del brazo y el diametro del 
craneo (0,48). En general las correlaciones m.as bajas aparecen entre el diametro del craneo 


resto de las variables. 

La matriz S 1 

es: 


0.14 

0.01 

-0.21 

-0.11 

-0.07 

-0.05 

-0.07 

0.01 

0.04 

-0.08 

-0.03 

-0.04 

-0.04 

-0.00 

-0.21 

-0.08 

1.26 

0.06 

-0.05 

0.18 

-0.29 

-0.11 

-0.03 

0.06 

0.29 

-0.04 

0.13 

-0.04 

-0.07 

-0.04 

-0.05 

-0.04 

0.34 

-0.13 

0.15 

-0.05 

-0.04 

0.18 

0.13 

-0.13 

0.64 

-0.15 

-0.07 

-0.00 

-0.29 

-0.04 

0.15 

-0.15 

0.50 


y utilizando los elementos diagonales de esta m.atriz y de la matriz S podemos calcular las 
correlaciones multiples al cuadrado de cada variable con el resto como sigue: (1) multipli- 
camos los elementos diagonales de las matrices S y S' -1 . El resultado de esta operacion es el 
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vector ( U. 3672 , 5.5415, 9.9898, 6.8536, 5.3549, 2.0784, 4-7560). (2) A continuacion, cal- 
culamos las inversas de estos elementos, para obtener (0.0696 0.1805 0.1001 0.1459 0.1867 
O.48II 0.2103). Finalmente, restamos a uno estos coeficientes para obtener (0.9304, 0.8195, 
0.8999, 0.8541, 0.8133, 0.5189, 0.7897) y estos son los coeficientes de correlacion multiple 
entre cada variable y el resto. Vem.os que la variable mas previsible por las restantes es la 
estatura, (R 2 = 0.9304) > despues el pie (R 2 = 0.8999) y luego la longitud del brazo (R 2 = 
0.8541). La menos predecible es dcr, que tiene un coeficiente de correlacion multiple con el 
resto de 0.5189, 0 en otros terminos, el resto de las variables explica el 52% de la variabilidad 
de esta variable. 

La ecuacion para prever la estatura en funcion del resto de las variables se obtiene facil- 
mente con cualquier programa de regresion. El resultado es 

est = 0.9 - 0.094 peso+ l-43pie + 0.733 Ibr + 0.494 aes + 0.347 dcr + 0.506 Irt 
que es la ecuacion que permite prever con menor error la estatura de una persona dadas 
el resto de las medidas. El R 2 de esta regresion es = 0,93, resultado que habiamos obtenido 
anteriormente. La ecuacion para prever la longitud del pie es: 

pie = 8.14 + 0.162 est + 0.0617 pes - 0.051 Ibr + 0.037 aes - 0.144 dcr + 0.229lrt 
que indica que para prever el pie las variables mas relevantes parecen ser la estatura y 
l alongitud rodilla tobillo. Podemos hacer regresiones tomando como variable explicativa el 
sexo, entonces: 

sexo — - 3.54 - 0.0191 est - 0.0013 pes + 0.141 pie + 0.0291 Ibr + 0.0268 aes 
- 0.0439 dcr + 0.0219 Irt. 

La variable mas importante para prever el sexo de una persona parece ser el pie que es la 
que tiene un coeficiente m.as alto. 


3.7.3 Dependencia directa entre pares: Correlaciones parciales 

La dependencia directa entre dos variables controlando el efecto de las restantes se mide por 
el coeficiente de correlacion parcial. Se define el coeficiente de correlacion parcial entre dos 
variables, (xi,X2), dadas las variables (# 3 , ...,x p ), y se denota por ri 2 . 3 .. p , como el coeficiente 
de correlacion entre las partes de x\ y .zy que est-an fibres de los efect-os de las variables 
(.X3, x r> ). Este coeficiente se obtiene en dos et-apas. Primero, hay que obtener la parte de 
cada variable que no es explicada por (o esta fibre de los efect-os de) el grupo de variables que 
se controlan. Esta parte es el residuo de la regresion sobre el conjunto de variables (.x 3 , x p ), 
ya que, por construction, el residuo es la parte de la respuesta que no puede preverse o es 
independient-e de los regresores. Segundo, se calcula el coeficiente de correlacion simple entre 
estos dos residuos. Se demuestra en el apendice 3.3 que los coeficientes de correlacion parcial 
entre cada par de variables se obtienen est-andarizando los elementos de la matriz S 1 . En 
concret-o, si llamamos s l] los elementos de S 1 , el coeficiente de correlacion parcial entre las 
variables XjXk se obtiene como 


s 


0 


r jk.l2,...,p 


\J s^sP 


(3.23) 



96 


CAPITULO 3. DES CRIP CION DE DATOS MULTIVARJANTES 


Los coeficientes de correlation partial pueden calcularse a partir de los coeficientes de cor- 
relation multiple mediante la relation, que se demuestra en el apendice 3.3: 

i d2 

1 _ r ,2 _ 1 
1 '12.3 ..p — i _ R 2 ’ 

1 ■ n '1.3,...,p 

donde r 2 23 es el cuadrado del coeficiente de correlation partial entre las variables (aq,x 2 ) 
cuando se controlan las variables (x 3 , ...,x p ) , R 2 2 ,...,p es d coeficiente de determinacion o coe- 
ficiente de correlation multiple al cuadrado en la regresion de x\ con respecto a (x 2 , x 3 , ..., x p ) 
y R 2 3 es el coeficiente de determinacion o coeficiente de correlation multiple al cuadrado 
en la regresion de aq con respecto a (a: 3, ..., x p ). (El resultado es equivalent-e si intercambiamos 
aq por X 2 ). Esta expresion indica una relation simple entre terminos del tipo 1 — r 2 , que, 
segun la expresion (3.21), representan la proportion relativa de variabilidad no explicada. 

Se define la matriz de correlaciones parciales, P, como aquella que cont-iene los coeficientes 
de correlacion partial entre pares de variables eliminando el efecto de las restantes. Por 
ejemplo, para cuatro variables, la matriz de correlaciones parciales, : 

1 ^12.34 f 13.24 f 14.23 

T 21.34 1 T 23.14 r 24.13 

r 31.24 r 32.14 1 r 34.12 

^41.23 ^42.13 ^43.12 1 

donde, por ejemplo, r 12 .34 es la correlation entre las variables 1 y 2 cuando eliminamos el 
efecto de la 3 y la 4, o cuando las variables 3 y 4 permanecen const-antes. De acuerdo con 
(3.23) esta matriz se obt-iene como 

p = (-l) dia9 D(S" 1 )- 1/2 S~ 1 D(S" 1 )- 1/2 

donde D(S ') es la matriz diagonal obtenida seleccionando los elementos diagonales de la 
matriz S 1 y el termino ( — l indica que cambiamos el signo de todos los elementos de la 
matriz menos de los elementos diagonales que seran la unidad. La expresion (3.23) es similar 
a la (3.17), pero utilizando la matriz S 1 en lugar de S. Observemos que D(S 1 )^ 1 / 2 no es 
la inversa de D(S)~ 1 / 2 = D” 1 / 2 , y que, en consecuencia, P no es la matriz inversa de R. 

3.7.4 El coeficiente de Dependencia 

Para obtener una medida conjunta de la dependencia entre las variables podemos utilizar el 
determinante de la matriz de correlacion, que mide el alejamiento del conjunto de variables de 
la situation de perfecta dependencia lineal. Se demuestra en el apendice 3.2 que 0 < |R| < 1 

y: 

(1) Si las variables est-an todas incorreladas R es una matriz diagonal con unos en la 
diagonal y |R| = 1. 

(2) Si una variable es combination lineal del resto hemos visto que SyR son singulares 
y |R| = 0 

(3) En el caso general, se demuestra en el apendice 3.3 que: 

|Rpl = (l — Rp.i...p-i) (l — -Rp-1.1- .p-2) ••• (l — -R2.1) • 



(3.24) 
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es decir, el determinante de la matriz de correlation es el producto de p — 1 terminos. El 
primero representa la proportion de variabilidad no explicada en una regresion multiple 
entre la variable p y las restantes variables, p — l,p — 2, 1. El segundo la proportion de 
variabilidad no explicada en una regresion multiple entre la variable p — 1 y las variables 
restantes siguientes, p — 2,p — 3, 1. El ultimo representa la proportion de variabilidad no 
explicada en una regresion simple entre las variables dos y uno. 

De acuerdo con la propiedad anterior R p | 1 7 ' 1 representa la media geometrica de la 
proportion de variabilidad explicada por todas las regresiones anteriores. Observemos que 
tambien es la media geometrica de los valores propios de la matriz R ; ,. teniendo en cuenta 
que solo tenemos p — 1 valores propios independient.es ya que estan ligados por A, = p . 

A partir de estas propiedades Pena y Rodriguez (2000) han propuesto como medida de 
dependencia lineal global la Dependencia, definida por : 

D(R p ) = 1 - |R p | 1/(p_1) (3.25) 

Por ejemplo, para p = 2 como |R 2 | = 1 — rf 2 , esta medida coincide con el cuadrado del 
coeficiente de correlation lineal entre las dos variables. Para p > 2 podemos escribir de 
(3.24) y (3.25): 

1 - D(R P ) = [(1 - (1 - i?P L1 ^ p _ 2 ) ... (1 - flL)] 1/<P_1) 

y vemos que la dependencia es el coeficiente de correlation necesario para que la variabilidad 
no explicada en el problema sea igual a la media geometrica de todas las posibles variabili- 
dades no explicadas. El coeficiente de correlation promedio estara dado por 

p{ Rp) = D(R P ) 1/2 = \j I — |R P | 1/(p_1) - 

En el caso particular en que p = 2, el coeficiente de correlation promedio coincide con el 
valor absoluto del coeficiente de correlation simple. 

Ejemplo 3.10 Vamos a construir la matriz de correlaciones parciales para las 7 variables 
fisicas, tabla A. 5, MEDIFIS. Podemos construir la m.atriz de correlaciones parciales a partir 
de 5 1 ” 1 estandarizandola por los elementos diagonales para obtener: 


1.00 

-0.19 

0.48 

0.52 

0.32 

0.17 

0.27 

-0.19 

1.00 

0.37 

0.30 

0.34 

0.26 

0.00 

0.48 

0.37 

1.00 

-0.11 

0.07 

0.20 

0.37 

0.52 

0.30 

-0.11 

1.00 

0.13 

-0.31 

0.10 

0.32 

0.34 

0.07 

0.13 

1.00 

0.29 

-0.37 

0.17 

0.26 

0.20 

-0.31 

0.29 

1.00 

0.27 

0.27 

0.00 

0.37 

0.10 

-0.37 

0.27 

1.00 


Esta matriz muestra que las relaciones parciales mas fuert.es se dan entre la estatura y 
las longitudes del pie (0,48) y del brazo (0,52). Por ejemplo este coeficiente se interpreta que 
si consideramos personas con el mismo peso, pie, anchura de espalda, diametro del craneo y 
longitud rodilla tobillo, hay una correlacidn positiva entre la estatura y la longitud del brazo 
de 0,52. La tabla muestra que para personas de la misma estatura, peso y demas medidas 
fisicas, la correlacidn entre la anchura de la espalda y la longitud rodilla tobillo es negativa. 
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Para obtener una medida de dependencia global, como el determinante de R es 1.42 x 10 4 
y el coeficiente global de dependencia es 

D = 1 - | R| 1/6 = 1 - vti.42 x l(ti 4 = 0.771 

Podemos concluir que, globalmente, la dependencia lineal explica ll%o de la variabilidad 
de este conjunto de datos. 

Ejemplo 3.11 Calcularemos el coeficiente global de dependencia para los datos del Anexo 
de Datos en las unidades originates en que se presentan, 

EUROALI EUROSEC EPF INVEST MUNDODES ACCION 
D .51 .80 .62 .998 .82 .61 

Se observa que en INVEST la dependencia conjunta es muy fuerte. Esto sugiere que puede 
reducirse el numero de variables necesarias para describir la informacion que contienen. 

3.8 La matriz de precision 

Se denomina matriz de precision a la inversa de la matriz de varianzas y covarianzas. Esta 
matriz juega un papel importante en muchos procedimientos estadi'sticos, como veremos 
en capi'tulos sucesivos. Un result-ado importante es que la matriz de precision contiene la 
informacion sobre la relation multivariante entre cada una de las variable y el resto. Este 
result-ado es a primera vist-a sorprendente, ya que la matriz de varianzas y covarianzas solo 
contiene la informacion sobre las relaciones por pares de las variables, pero se explica por las 
propiedades de la matriz inversa (vease 2.3.4). Puede demost-rarse, (vease el apendice 3.1) 
que la inversa de la matriz de covarianzas contiene : 

(1) Por filas, y fuera de la diagonal terminos proporcionales a los coeficientes de regresion 
multiple de la variable correspondient-e a esa fila explicada por t-odas las demas. Los terminos 
de la matriz son estos coeficientes cambiados de signo y multiplicados por la inversa de la 
varianza residual en esa regresion. Es decir, si llamamos s l] a los element-os de la matriz de 
precision: 

sij = -Pij/ S l(i) 

donde es el coeficiente de regresion de la variable j para explicar la variable i, y s 2 r (t) la 
varianza residual de la regresion. 

(2) En la diagonal las inversas de las varianzas residuales de cada variable en su regresion 
con el resto. Es decir: 


= 1/^(0 

(3) Si estandarizamos los element-os de esta matriz para que t-enga unos en la diagonal, los 
element-os fuera de la diagonal son los coeficientes de correlacion partial entre estas variables. 
Es decir 


r ij.R 


\J s u sR 
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donde R se refiere al resto de las variables, es decir el conjunto de p — 2 variables Xk con 
k = 1 y k i,j. 

Por ejemplo, con cuatro variables, la primera fila de la matriz inversa de varianzas y 
covarianzas es 


S R ( 1 )) S R ( 1)/^12 , S R ( 1 )/^ 13 ) S R ( 1)/^14 

donde s^(l) es la varianza residual de una regresion entre la primera variable y las ot-ras t-res 
y P 12 , P i 3 , (3 a son los coeficientes de regresion en la ecuacion 

ail = 3l2^2 + ^13^3 + ^14^4 


donde hemos supuesto, sin perdida de generalidad, que las variables t-ienen media cero. Por 
tant-o, la matriz S 1 contiene toda la informacion de las regresiones de cada variable en las 
demas. 


Ejemplo 3.12 Calculemos e interpretemos la matriz de precision de los datos de los loga- 
ritmos de las acciones, tabla A: ACCIONES, del ejemplo 3.5. Esta matriz es 


S~ l 


52.0942 

-47.9058 

52.8796 


-47.9058 

52.0942 

-47.1204 


52.8796 

-47.1204 

60.2094 


Por ejemplo, la primera fila de esta matriz puede escribirse como 52. 0942x (1.0000, —0.9196, 1.0151) 
que indica que la varianza residual de una regresion entre la primera variables y las ot-ras 
dos es 1/52.0942 = .0192, y los coeficientes de regresion de las variables X 2 y X 3 en una 
regresion para explicar Xi son —0.9196 y 1.0151 respectivamente. Observem-os que, de nuevo, 
aparece que la relacion z = Xi — X 2 + X 3 t-iene poca variabilidad. La varianza de la regresion 
, 0.019, es menor que la de la variable z, ya que represent-a una variabilidad condicionada 
cuando se conocen las variables X 2 y X 3 . 


3.9 COEFICIENTES DE ASIMETRIA Y KURTOSIS 

La generalizacion de los coeficientes de asimetrfa y kurtosis al caso multivariante no es 
inmediata. Una de las propuestas mas utilizadas es debida a Mardia (1970), que propone 
calcular las distancias de Mahalanobis para cada par de elementos muestrales (i,j) : 

dij = (xj - x)' S 1 (xj - x) . 

y define el coeficient-e de asimetrfa multivariante en la distribucion conjunta de las p variables 


4 . = -;££<%■ 

i= 1 3 = 1 


como 
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y el de kurtosis 



i= 1 


Estos coeficientes tienen las propiedades siguientes: 

1. Para variables escalares A p = A 2 . En efecto, entonces 


a p = za yz - x ) 3 ( x i - x f/ s 6 = 


n 


i = 1 j = 1 


(e:u x *~ x ) 

n 2 s 6 




A 2 


2. El coeficiente de asimetria es no negativo y sera cero si los datos estan distribuidos 
liomogeneament-e en nna esfera. 

3. Para variables escalares K = K rr El resultado es inmediato porque entonces d~, = 
( Xi - x) 4 /s 4 . 

4. Los coeficientes son invariantes ante transformaciones lineales de los datos. Si y = 
Ax + b, los coeficientes de asimetria y kurtosis de y y de x son ident.icos. 


Ejemplo 3.13 Calcularem.os los coeficientes de asimetria y kurtosis multivariantes para los 
datos sobre de rentabilidad de las acciones . Se comprueba que si tomamos los datos en su 
metrica original, el coeficiente de asimetria multivariante es: A p = 16.76.. Este valor sera, en 
general, mayor que los coeficientes univariantes, que son, respectivamente, 0,37, 0,04, V 2,71. 
Si tomamos logaritmos a los datos A p = 7.5629 , mientras que los univariantes son 0,08, 
-0,25 y 1,02. Podemos concluir que , efectivamente, la transformation logaritmica ha servido 
para simetrizar mas estos datos. El coeficiente de kurtosis multivariante es K p = 31.26, que 
debe compararse con los valores univariantes de 1,38, 1,40, y 12,44 ■ Al tomar logaritmos 
el coeficiente multivariante es K p = 21.35, mientras que los univariantes son 1,43, 1,75, y 
4,11, con lo que vemos que tambien se reduce la kurtosis tomando logaritmos. 


EJERCICIOS 


Ejercicio 3.1 Calcular el vector de medias y el de medianas para las tres variables de las 
ACCIONES, tabla A. 7. Comparar sus ventajas como medidas de centralization de estas 
variables. 

Ejercicio 3.2 Se dispone de 3 indicadores econdmicos X t , X 2 , A 3 , que se rniden en cuatro 
paises, con los resultados siguientes: 


X l X 2 X, 

2 3-1 

1 5 -2 

2 2 1 

2 3 1 

Calcular el vector de medias, la matriz de varianzas y covarianzas, la varianza generalizada, 
la matriz de correlation y la raiz y vector caracteristico mayor de dichas matrices. 
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Ejercicio 3.3 A partir de los tres indicadores economicos Xi,X 2 ,X 3 del problema 1 se 
construyen dos nuevos indicadores 

Vi = (1/3)^! + (1/3)x 2 + (l/3)a? 3 


y 2 = xi - 0, 5x 2 - 0, 5x 3 


Calcular el vector de medias para y' = (yi,y 2 ), su matriz de varianzas y covarianzas, la 
matriz de correlacidn y la varianza generalizada. 


Ejercicio 3.4 Demostrar que la matriz 

(i,i) v (i,-i). 


1 r 
r 1 


tiene autovalores 1 +r yl—r y autovectores 


Ejercicio 3.5 Demostrar que si una matriz es de la form, a C 


A 0 
0 B 


los autovectores 


son de la form, a (tti, 0) y (0, u 2 ), donde u\ y u 2 son autovectores de A y B, respectivamente. 


Ejercicio 3.6 Cual es la relacion entre los autovalores de C y los de A y B en el ejercicio 
5?. 


Ejercicio 3.7 Demostrar que si Y = XA donde Y es n x m y X es n x p las m.atriz de 
covarianzas de Y esta relacionada con la de X por S y = A'S X A. 

Ejercicio 3.8 Calcular los coeficientes de correlacidn multiple entre cada variable y todas 
las demas para los datos de INVES. 

Ejercicio 3.9 Calcular la matriz de correlaciones parciales para los datos de INVES. 

Ejercicio 3.10 Demostrar que la varianza residual de una regresion multiple entre una vari- 
able y y un conjunt.o de x puede escribirse como s 2 { 1 — R 2 ) donde s 2 es la varianza de la 
variable y y R 2 el coeficiente de correlacidn multiple. 

Ejercicio 3.11 Calcular los coeficientes de correlacidn parcial entre las variables del conjun- 
to de acciones mediante regresiones y ut.ilizando los element, os de la matriz S " 1 y comprobar 
la equivalencia. 

Ejercicio 3.12 Calcular el coeficiente de asimetria multivariante para un vector de dos vari- 
ables incorreladas entre si. Cual es la relacion entre el coeficiente de asimetria multivariante 
y los univariantes? 

Ejercicio 3.13 Repetir el ejercicio anterior para los coeficientes de kurtosis. 

Ejercicio 3.14 Demostrar que para un conjunt.o de datos X)iLi( x * — x ) , S _1 (x i — x) = 1 
( sugerencia , tome trazas y utilice que tr[Y^ =1 (x — x) / S _1 (x, ; — x)] = tr [S _1 — x )( x i — x)']). 



102 


CAPITULO 3. DES CRIP CION DE DATOS MULTIVARJANTES 


Ejercicio 3.15 Demostrar que podemos calcular la matriz de distancias euclideas entre los 
puntos con la operacion diagpOO) 1 + 1 diagpOO) — 2X ; X, donde X es la matriz de datos, 
diag(X.X.r) el vector que tiene por componentes los elementos diagonales y 1 es un vector de 
unos. 


Ejercicio 3.16 Demostrar que podem.os calcular la matriz de distancias de Mahalanobis 
entre los puntos con la operacion dia(/(XS _1 X/)l + ldiag(XS _1 X/) — 2X / S'~ 1 X, donde X 
es la matriz de datos, diag(KS^ 1 'K./) el vector que tiene por componentes los elementos 
diagonales de la matriz XS _1 X/, y 1 es un vector de unos. 


APENDICE 3.1: LA ESTRUCTURA DE LA MA- 
TRIZ DE PRECISION 

Particio nemos la matriz S separando las variables en dos bloques: la variable 1 que 
llamaremos y, y el resto, que llamaremos R. Entonces: 


S 


s 2 c' 
*1 L 1 R 

C 1 R 


donde s 2 es la varianza de la primera variable, c | r el vector de covarianzas entre la primera 
y el resto y Sr la matriz de varianzas y covarianzas del resto. Su inversa, utilizando los 
resultados del capi'tulo anterior sobre la inversa de una matriz particionada, sera: 


S" 1 


( s i c 'irSr c i r) A 12 

A 2 i A 22 


Supongamos para simplificar que la media de todas las variables es cero. Entonces la 
regresion de la primera variable sobre el resto tiene de coeficientes: 

Air — S i? 1 c ljR , 

Para encontrar la relation que buscamos, utilizaremos la identidad basica del analisis de la 
varianza (AD EVA): 


-VT = -VE + —VNE 
n n n 

Apliquemos est.a descomposicion a la primera variable. El primer termino es sf, la varianza 
de la primera variable, y el segundo, como y = X.r/ 3 1r , puede escribirse: 

^VE = ^ (y'y) = 3 li? S R 3 li? 

= C li?Sfl; 1 Sii;S ij . 1 Ci j R = C li? S J? 1 Ci r , 

y el tercero, VNE/n = J2 e i R / n = s r(l)> donde hemos llamado e± r a los residuos de 
la regresion de la primera variable respecto a las demas, y s 2 ( 1 ) a la varianza residual, sin 
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corregir por grados de libert-ad, de esta regresion. Sustituyendo estos terminos en la ident-idad 
basica de ADEVA, obtenemos que la varianza residual puede calcularse como: 

s?(!) = - ciflS^W 

Si comparamos esta expresioii con el primer termino de la matriz S 'concluimos que el 
termino diagonal primero de S 1 es la inversa de la varianza de los residuos (dividida por 
n y sin correccion por grados de libert-ad) en una regresion entre la primera variable y el 
rest-o. Como est-e analisis puede hacerse para cualquiera de las variables, concluimos que 
los terminos diagonales de S 1 son las inversas de las varianzas residuales en las regresiones 
entre cada variable y el resto. 

Para obt-ener la expresion de los terminos de fuera de la diagonal en S 1 aplicaremos la 
formula para la inversa de una matriz particionada: 

^12 = - [ s r(l)] C 1 R,Sr = — [ s r(l)] PlRi 

y, por tanto, las filas de la matriz S 1 contienen los coeficientes de regresion (cambiados de 
signo) de cada variable con relacion a las rest-antes divididos por la varianza residual de la 
regresion (sin corregir por grados de libert-ad). 

En resumen, S 1 puede escribirse: 

s" 2 (l) -s~ 2 ( l)p' 1R 

S" 1 = 

Sr 2 (.P)PpR S~ 2 (p) 

donde (3 ]R representa el vector de coeficientes de regresion al explicar la variable j por las 
rest-ant-es. Observemos que en esta matriz el submdice R se refiere al conjunto de p — 
1 variables que queda al t-omar como variable respuesta la que ocupa el lugar de la fial 
correspondient-e ne la matriz. Por ejemplo, j3 pR es el vector de coeficientes de regresion entre 
la p y las (1, ...p — 1). 

APENDICE 3.2 LOS DETERMINATES DE S Y R. 

Vamos a obtener expresiones para los determinantes de la matriz de varianzas y covari- 
anzas y de correlation, utilizando los result-ados para matrices part-icionadas del capi'tulo 2. 
Escribamos la matriz de varianzas y covarianzas como: 

A c' 

*i c ii? 

C li? Sp_l 

donde s 2 es la varianza de la primera variable, c' 1R contiene las covarianzas entre la primera 
y utilizamos ahora la notation S p para referirnos a la matriz de varianzas y covarianzas de 
las correspondientes p variables. Aplicando la formula para el determinante de una matriz 
particionada, podemos escribir 

|Sp| = |Sp-l| (l - R\,2 ...p) 
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donde R\ 2 ... p es coeficiente de correlacion multiple entre la primera variable y el resto que 
viene dado, utilizando los resultados del apendice 3.1, por 

-^1.2 ...p = ~2 C 1R^P-1 C 1R 

b i 

Analogamente si escribimos la matriz de correlacion particionada como 

1 r i R 

I"l R Rp-1 

donde r 1/? y R p _i son, respectivamente, el vector de correlaciones de la primera variable con 
el resto y la matriz de correlacion entre el resto de las variables. Entonces, 

|R„| = |R 1 ,_ 1 |(l- J R?. 2 ... p ), (3.26) 



ya que, tambien 


R 


2 

1 . 2 .. .p 




Para demostrar esta igualdad, observemos que la relacion entre los vectores de correla- 
ciones y covarianzas es r i /,> = D p ^{ 2 cui/si, donde D p '( 2 contiene las inversas de las desvia- 

ciones tfpicas de las p — 1 variables. Como R p _i = D jU j L { 2 S p _ 1 D p j L { 2 , tenemos que 




Mh/si)dA 2 D 


(c 1R / Sl ) = -jC^S^Cs 

S 1 


R 


2 

1 . 2 .. .p 


Aplicando sucesivamente la ecuacion (3.26), se obtiene que 


\Rp\ — (l R\.2...p) (l -^2.3 -p) ••• (l r p~l.p) ' 

APENDICE 3.3 CORRELACIONES PARCIALES 

El coeficiente de correlacion parcial es el coeficiente de correlacion simple en una regresion 
entre residuos. Su cuadrado puede interpretarse de la forma habitual como la proportion de 
variation explicada respecto al total, siendo en este caso la variation total la no explicada 
por otra regresion previa. Vamos a utilizar esta interpretation para obtener la relation entre 
los coeficientes de correlation parcial y multiple. 

Supongamos p variables y vamos a obtener el coeficiente de correlacion parcial entre las 
variables x \ . y x 2 , cuando se controlan aq, ..., x p . Para ello haremos una regresion simple 
entre dos variables: la primera es ei. 3 .. p , los residuos de una regresion entre x \ y a; 3 , ..., x p . y la 
segunda e 2 . 3 .. p , los residuos de una regresion entre aq y aq, .... x p . El coeficiente de correlacion 
simple de esta regresion entre residuos, ri 2 . 3 ... p , es el coeficiente de correlacion parcial. Por 
construction este coeficiente es simetrico entre el par de variables, pero suponiendo que 
tomamos la primera variable como dependieut-e en la regresion, la ecuacion estimada entre 
los residuos es 


ei.3,...,p — bl2.3,...,p&2.3,..,.p 
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y el coeficiente de correlation de esta regresion, que es el de correlation partial, sera 

Vamos a comprobar que est-os terminos los podemos obtener de la matriz S 1 . En esta matriz 
s 12 = — s~ 2 (l)/? 12 . 3 iP = <s 21 = — s~ 2 (2)/3 12 .3 p ya que la matriz es simetrica. dividiendo 
por la raiz de los elementos s 11 y s 22 . Se obtiene 

S 12 _ S r 2 (l)/^12.3,...,p _ 'a s r(2) 

~ s- 1 (l)s- 1 (2) “ ' 12 - 3 ’-’ p ^(T) 

y puede comprobarse que esta expresion es ri 2 . 3 ... p , el coeficiente de correlacion parcial. 

En la regresion entre los residuos el cociente entre la variabilidad no explicada y la total 
es uno menos el cuadrado del coeficiente de correlacion. La variabilidad no explicada en 
esta regresion es la variabilidad no explicada de la primera variable respecto a todas, que 
llamaremos VN E] ^i...p (ei. 3 .. p contem'a la parte no explicada por las variables 3, ,.,p y ahora 
hemos anadido la x 2 )- La variabilidad total de la regresion es la de los residuos, ei. 3 .. p , es 
decir la no explicada en la regresion de X\ respecto a x 2 , ..., x p . Por tanto, podemos escribir: 

1 _ 2 V NE}_'2, 3,...,p 

12 3 ^ r.v 

Vamos a expresar est-as VNE en funcion de los coeficientes de correlation multiple de las 
correspondientes regresiones. Llamando R 2 3 p al coeficiente de determinacion en la regresion 
multiple de x\ respecto a a; 3 , ..., x p : 


1-R 


2 

1.3.. .p 


VNEiYrE 

VTi 


donde VT\ es la variabilidad de la primera variable. Analogamente, en la regresion multiple 
entre la primera variable y todas las demas, x 2 , x$, ...,x p tenemos que 


p2 _ VNEi.2,3 ,...,p 
-^l .23.. .p — 


De estas t.res ecuaciones deducimos que 

1 9 

1 — r 


12.3.. .p 


VTi 


1 td2 

1 Jl 1.23...p 

1 - W 3 ...„ 


(3.27) 


que permite calcular los coeficientes de correlacion parcial en funcion de los coeficientes de 
correlacion multiple. Aplicando reit-eradamente esta expresion podemos tambien escribir 


(l -^1.23 ...p) ~ (l r 12.3...p) (l r 13.4...p) ••• (l r lp-l.p) (l r lp) 

Tambien puede demost-rarse (vease Pena, 2002) que el coeficiente de correlacion parcial 
entre las variables (aq,x 2 ) cuando se controlan las variables (X 3 , ..., x p ) puede expresarse en 



106 


CAPITULO 3 . DES CRIP CION DE DATOS MULTIVARJANTES 


funcion del coeficiente de regresion de la variable a; 2 en la regresion de x\ con respecto a 
(x2, xs, x p ), y su varianza. La expresion es: 


r 12.3 ...p — Pl2.3...p 



p — l)s 2 



donde / 3 12.3.. , P y su varianza, s 2 
cero: 


0 


12.3 ...p 


se obtienen en la regresion entre variables de media 


X 1 — @12.3. ..p X 2 + @13.2...p X 3 + ••• + filp.2...p-l X P 



Capftulo 4 


ANALISIS GRAFICO Y DATOS 
ATIPICOS 

4.1 INTRODUCTION 

En este capftulo vamos a continual- la descripcion de datos multivariantes, estudiando su 
representacion grafica y posibles transformaciones de las variables que conduzcan a una 
descripcion mas simple de los datos. Tambien introduciremos un analisis inicial de la homo- 
geneidad de la muestra mediant-e el estudio de los posibles valores atfpicos, debidos a errores 
de medida, o otras causas de heterogeneidad. 

Obtener buenas representaciones graficas de datos multivariantes es un problema diff- 
cil, y en este capftulo introduciremos los metodos mas simples que se complementaran con 
los analisis graficos presentados en capftulos posteriores. Recordemos que las correlaciones 
miden las relaciones lineales entre las variables, y pueden ser ma interpretadas cuando las 
relaciones son no lineales. Por esa razon se intenta transformar las variables para que las 
variables transformadas tengan relaciones aproximadamente lineales, y veremos como gener- 
alizar las transformaciones univariantes para conseguir este objetivo. Por ultimo, los datos 
multivariantes contienen con freuencia observaciones que son heterogeneas con el resto y, que 
si no son detectadas, pueden alterar completamente el analisis descript-ivo de las variables 
originales. En este capftulo presentaremos metodos para detectar los datos atfpicos. 

4.2 REPRESENTACIONES GRAFICAS 

4.2.1 Histogramas y diagramas de dispersion 

El primer paso de cualquier analisis multivariante es representar graficamente las variables 
individualmente, mediante un histograma o un diagrama de caja. Estas representaciones son 
muy utiles para detectar asfmetrfas, heterogeneidad, datos atfpicos etc. En segundo lugar 
conviene construir los diagramas de dispersion de las variables por pares, y est-a posibilidad 
se incluye ya en muchos programas de ordenador. Con p variables existen p(p — l)/2 graficos 
posibles que pueden disponerse en forma de matriz y son muy utiles para ent.ender el tipo 
de relacibu existente entre pares de variables, e identificar puntos atfpicos en la relacion 
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bivariante. Eii particular, estos graficos son importantes para apreciar si existen relaciones 
no lineales, en cuyo caso la matriz de covarianzas puede no ser un buen resumen de la 
dependencia entre las variables. 

Podemos simular graficos de tres variables presentando en la pantalla de un ordenador 
proyecciones adecuadas de esta relacion girando el punto de vista del observador para dar 
idea del espacio tridimensional. Estas representaciones graficas se conocen con el nombre 
de Gran Tour de los datos y pueden ser muy utiles, utilizados interactivamente con un 
ordenador, pero no pueden construirse para dimensiones superiores a tres. Tambien para 
variables discretas podemos construir diagramas de barras tridimensionales y para variables 
continuas podemos construir los equivalentes multidimensionales de los histogramas. La 
figura 4.3 presenta un ejemplo de estas representaciones. 

Ejemplo 4.1 La figura muestra los graficos de dispersion de los datos de medidas de desar- 
rollo del mundo, MUNDODES, del Anexo I. 



Figura 4.1: Matriz de dispersion para los datos MUNDOES. 

La figura j.l ilustra claramente que existen relaciones de dependencia fuerte entre las 
variables, muchas de caracter no lineal. Por ejemplo, la relacion entre las variables primera 
y segunda, tasa de natalidad y de mortalidad, es claramente no lineal y se observa un valor 
atipico muy destacado en la relacion. En toda la primera fila (o columna) que indica las 
relaciones de la prim, era variable (tasa de natalidad) con las restantes las relaciones parecen 
no lineales y , en algunos casos, heterocedastica. Comentarios sim, Hares se aplican a la 
segunda variable. En otros casos parece que la relacion entre dos variables es diferente para 
distintos grupos de paises. Por ejemplo, en practicamente todas las relaciones en que aparece 
la sexta variable, riqueza del pais medida por el PNB, parecen existir dos tipos de paises. En 
unos parece no existir relacion entre la variable demografica y el PNB, mientras que en los 
otros parece existir una clara relacion positiva (como con la tasa de mortalidad) o negativa 
(como con la mortalidad infantil) entre las variables demograficas y el PNB. 
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Esta figura muestra ademas que algunas de las relaciones son heterocedasticas, es decir, 
que la variabilidad de la relacion aumenta al aumentar los niveles de las variables. Por 
ejemplo, en la relacion entre tasa de natalidad y mortalidad infantil, donde ademas se aprecia 
claramente un valor atipico. Este punto aparece muy claramente en la relacion entre las dos 
primeras variables (posiciones 1,2 y 2,1 de la matriz) y en los graficos de la segunda fila y 
columna, indicando que el punto es atipico en las dos primeras variables. 

Finalmente algunas relaciones son muy fuertes y lineales como entre las esperanzas de 
vida y la mortalidad infantil. 


Ejemplo 4.2 El grafico siguiente presenta los diagramas de dispersion para los datos de las 
AC Cl ONES. 



Figura 4.2: Matriz de dispersion de los datos de ACCIONES 


En la figura J^.2 se observa como la primera observacion aparece como un valor atipico 
en todos los diagramas de dispersion. En los graficos con la tercera variable este punto es un 
valor muy extremo en la relacion, mientras que en los grafico de las otras dos variables aparece 
como atipico, pero no parece muy influyente en la relacion lineal entre arnbas variables. La 
accion 34 aparece, al igual que la 1, como una observacion aislada heterogenea con el resto. 

En este caso podemos hacer una representacion en tres dimensiones de las tres variables. 
En la figura 4-3 se observa que la relacion entre las variables x\ y X 2 depende del nivel de la 
x 3 . El grafico ilustra tambien con claridad el caracter claramente atipico de las observaciones 
1 y 34 que aparecen muy separadas del resto. Por otro lado, se observa en el grafico tridi- 
mendional que las observaciones se agrupan en dos conjuntos distintos. Esta caracteristica, 
que se apunta en los graficos bidimensionales, aparece claramente de manifiesto en la repre- 
sentacion tridimendional, ilustrando las ventajas de construir estas representaciones cuando 
sea posible. 
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Figura 4.3: Representacion Tridimensional de los datos de ACCIONES 

En la figura 4-4 se presenta la matriz de datos de dispersion para los datos de las acciones 
ahora en los logaritmos de las variables. Se observa que la transformacion en logaritmos 
aporta mayor linealidad a las relaciones entre variables dos a dos y reduce algo el efecto de 
la primera observacion que es atipica. 



Figura 4.4: Matriz de dispersion para los logartimos de los datos de ACCIONES. 

Ejemplo 4.3 La figura 4-5 representa los datos A. 4, INVEST, para las publicaciones cien- 
txficas. Se observa que existe una fuerte relacidn entre todas las variables. Las relaciones son 
aproximadamente lineales, si bien en algunos casos se observa cierta curvatura que podria 
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resolverse tomando logaritmos. No hay valores atipicos muy destacados. 



Figura 4.5: Representation como matriz de dispersion de los dat-os de INVES 


Ejemplo 4-4 La figura 4-6 presenta los graficos de dispersion para los dat-os de medidas 
fisicas del banco de dat-os MEDIFIS. Las relaciones son aproximadamente lineales y no se 
detecta la presencia de dat-os atipicos destacados. 

4.2.2 Representacion mediante figuras 

Para mas de t-res variables se utilizan principalmente dos tipos de metodos graficos. El 
primero, es mostrar los dat-os mediante figuras planas, asociando cada variable a una carac- 
terfstica del grafico. El segundo, es buscar conjuntos de proyecciones en una y dos dimen- 
siones que revelen aspectos caract-erist-icos de los dat-os. Vamos a presentar en est-a seccion 
el primer enfoque, en la seccion siguiente hablaremos del segundo. 

Existen muchas alternat-ivas posibles para representar los datos mediante figuras. Cher- 
noff ha propuest-o la utilization de caras, que tienen la vent-aja de nuestra facilidad para 
reconocer patrones en est-e formato y el inconvenient-e de que la representacion es muy de- 
pendiente de las variables escogidas para representar cada rasgo. Por ejemplo, la boca y la 
forma de la cabeza son rasgos mas llamat-ivos que las orejas o la longitud de la uariz, y el 
mismo conjunto de dat-os puede sugerir distint-os patrones de similitud entre las observations 
segun la asociacion elegida entre rasgos y variables. La figura 4.7 presenta un ejemplo. 

Si asociamos cada variable a un rasgo de una figura plana, podemos representar cada 
element-o en la muest-ra por una figura geomet-rica. En estas representations las similitudes 
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entre figuras indican las similitudes entre los elementos, y los valores ati'picos apareceran 
como figuras discordantes con el rest-o. Una figura muy utilizada es la estrella. Por ejemplo, 
para representar cinco variables, podemos escoger una estrella de cinco radios y asociar cada 
variable a cada uno de estos radios o ejes. Cada observation dara lugar a una estrella. 
Normalmente las variables se estandarizan de manera que tengan media cero y desviacion 
ti'pica unitaria. Entonces, se marca el cero sobre cada eje y se represents el valor de la 
variable en unidades de desviaciones tfpicas. La figura 4.8 presents un ejemplo de su uso. 

Ejemplo 4.5 La figura 4-7 presenta una representacion grafica de los datos de investigacion, 
INVEST, con las Caras de Chernoff. Cada observacion es convertida en una cara, y cada 
variable es asignada a una caracteristica de la misma. Para el siguiente ejemplo se ha uti- 
lizado el programa Splus, que asigna las variables a las siguientes caracteristicas: (1) area de 
la cara; (2) forma de la cara; (3) longitud de la nariz; (4) localizacion de la boca; (5) curva 
de la sonrisa; (6) grosor de la boca; (7a 11) localizacion, separacion, angulo, forma y grosor 
de los ojos, etc. Se puede representar m.as de 15 caracteristicas, y, originalmente, Chernoff 
logro representar 18 variables en una cara. En la figura 4-7 se han representado los paises 
contenidos en la base de datos INVEST pero eliminado EEUU, ya que este pais distorsion- 
aria la representacion grafica por tomar un valor muy extremo en todas las variables. En 
este tipo de graficos podemos o bien ver el comportamiento por separado de cada variable o 
bien la similitud global de cada dato multivariado. Por ejemplo, la variable MEDIC se ha 
asignado a la curva de la sonrisa y vemos que los primeros cuatro paises son claramente 
diferentes en cuanto a esta caracteristica. Sin embargo, juzgando globalmente, notamos que 
el comportamiento mas parecido lo presentan los cinco primeros paises. 

La representacion de las caras de Chernoff nos permite observar las diferencias entre 
los paises en cuanto al volumen de publicaciones. Para observar las diferencias entre los 
patrones de publicacion de los distintos paises deberiamos aplicar logaritmos a los datos para 
reducir la asimetria en las distribuciones univariantes, observada en la figura 4-10, y para 
linealizar mas las relaciones. 

Ejemplo 4.6 Para representar los paises con las variables en logaritmos se ha optado por 
un grafico de estrellas. Como se explico anteriormente, cada radio de la estrella esta asociado 
a una variable, en el ejemplo que trataremos fue ut.ilizado Splus, este programa comienza a 
asignar variables desde la derecha en el sentido opuesto a las agujas del reloj. En la figura 4-8 
se presenta como es esta asignacion para las variables de la base INVEST. En la figura 4-9 
se siguen observando diferencias de tarnano entre los primeros cinco paises y el resto, pero 
se aprecian ciertos patrones en los que se distinguen paises con tendencia a la investigacion 
en algunas areas frente a otras. 

4.2.3 (*) Representacion de Proyecciones 

En lugar de intentar representar las variables originates por pares podrfamos intentar repre- 
sentar parejas de variables que resuman en algun sentido el conjunto de variables. Esperantos 
asf obtener una mayor intuition visual de las propiedades de los datos. Una forma simple de 
resumir un vector de variables es construir una variable escalar como combination lineal de 
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sus valores. Por ejemplo, si x' = ( x \ , x p ) representa el precio de un conjunto de productos 
en un mercado, una medida resumen de estos precios es: 

v 

y = a'x = a j x j- (4.1) 

i = 1 

Si (ij = 1/p, la combinacion lineal result ante es la media de los precios. Si a 3 ^ 1/p, pero 
a j > 0 y Y/ a j — 1 la nueva variable es una media ponderada de las variables originales con 
pesos a ; j . En general (4.1) define una nueva variable que informa globalmente del conjunto 
de variables X. 

La variable escalar obtenida mediante una combinacion lineal puede siempre interpretarse 
geometricamente como una proyeccion. El producto escalar del vector x, en W’ , por otro 
vector a de $ft p viene dado por: 

a / x=|a||x| cos ct (4.2) 

y si el vector de ponderacion, a, se toma de manera que su norma sea uno, |a| = 1, el 
producto escalar es directamente la proyeccion del vector x sobre la direccion del vector a. 
En consecuencia, si elegimos una direccion con |a| = 1, la nueva variable escalar 

Vi = a'x,; (4.3) 

que tomara valores (y \ , ..., y n ), puede interpretarse como la proyeccion de los datos X sobre 
la direccion indicada por el vector a. El conjunto de los n valores de la nueva variable y 
pueden englobarse en un vector y (n x 1) que vendra dado por 

y = Xa, (4.4) 

donde X es la matriz de datos n x p. 

Como construir un indicador a partir de variables multivariantes puede interpretarse 
como proyectar los datos sobre cierta direccion, es natural preguntarse por direcciones de 
proyeccion que sean informativas para revelarnos la disposicion de los puntos en el espacio. 
Para ello tenemos que definir un criterio de proyeccion y encontrar la direccion donde ese 
criterio se maximiza. Las tecnicas disenadas con este objet.ivo se conocen como busqueda de 
proyecciones (projection pursuit), y se aplican como sigue: 

1. Escoger la dimension del espacio sobre el que vamos a proyectar (normalmente 2), y el 
criterio que se desea maximizar. 

2. Encontrar la direccion que maximiza el criterio analiticamente. Si no es posible en- 
contrar la direccion de forma anali't.ica hacerlo de manera aproximada, por ejemplo 
seleccionando un numero grande de direcciones (a, , a, v ), evaluando el criterio en 
cada una y seleccionando la direccion de este conjunto donde el criterio toma el valor 
maximo. 

3. Encontrar una direccion ortogonal a la primera que maximice el criterio. Esto puede 
hacerse por ejemplo proyectando los datos sobre el espacio ortogonal a la primera 
direccion, a, lo que supone transformales con Y = (I — aa/)X y aplicar el algortimo 
del punto 2 a los nuevos datos Y. 
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4. Representar los datos sobre el piano definido por las dos direcciones de proyeccion. 

Se suelen considerar interesantes las proyecciones que muestren relaciones no lineales 
entre las variables, o distribuciones multimodales que pueden indicar la presencia de clusters 
o grupos de observaciones. Inicialmente las funciones objet-ivo utilizadas se basaban en la 
teorfa de la informacidn. Por ejemplo, una medida de diversidad o het-erogeneidad es la 
entropfa de Shannon 

I(x) = J log f(x)f(x)dx 

que, entre las distribuciones continuas, se minimiza con la distribution normal. Si maxi- 
mizamos esta funcion esperamos obtener proyecciones donde la distribution resultante se 
aparte mas de la normal, en cierto sentido, lo que puede resultar en combinaciones intere- 
santes y estructuras inesperadas entre las variables. Naturalmente otros muchos criterios son 
posibles, y en la section 4.5 utilizaremos otro criterio para buscar direcciones que muestren 
la presencia de atfpicos. En el capi'tulo siguiente utilizaremos estas ideas para obtener proye- 
ciones que mantengan lo mas posible las distancias entre los puntos en el espacio. Los 
capi'tulos 5, 6 y 7 presentan mas ejemplos de estas tecnicas graficas. 

4.3 TRANSFORMACIONES LINEALES 

4.3.1 Consecuencias 

Muchas propiedades importantes de los datos son independientes de las unidades de medida 
de las variables y no cambiaran si pasamos de euros a dolares o de centi'metros a metros. Va- 
mos a estudiar como afectan cambios en las unidades de medida a los estadfsticos estudiados 
en el capi'tulo 3. Por ejemplo, supongamos que en lugar de medir una variable bidimen- 
sional x =(x\, aq)' en euros y en unidades lo hacemos en dolares y en miles de unidades, 
y — (y\ ■ y-i)'- La relation entre ambas variables sera: 

y = Ax (4.5) 

donde A es una matriz diagonal que tiene como terminos diagonales los fact-ores de conversion 
de euros a dolares y de unidades a miles de unidades (1/1000). Para el conjunto de las n 
observaciones la relation sera: 


Y = X A (4.6) 

donde X e Y son n x p, y A es una matriz diagonal pxp. Aplicando la definition de vector 
de medias 

1 1 ' 

y = -Y'l = A'-X'l =A x (4.7) 

n n 

y como A = A 7 , el vector de medias se transforma de la misma forma que los hacen las 
variables. 
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Las matrices de varianzas y covarianzas estaran relacionadas por: 

S y = ^Y'PY = A'(ix / PX)A =A'S X A. (4.8) 

El cambio de unidades es un caso particular de una transformation lineal de las vari- 
ables para simplificar su interpretation. Una transformation lineal importante es la es- 
tandarizacion de las variables, que puede hacerse de dos formas distintas, como veremos a 
continuation. 

4.3.2 Estandarizacion univariante 

Llamando x al vector p x 1 de la variable vectorial, la transformation lineal 

y = D-^x-x) 

donde la matriz D 1/2 es cuadrada y diagonal con terminos: 

' sb 1 0 ... O' 

D~ 1/2 = 0 ... 0 

0 0 . . . s- 1 _ 

conviert.e las variables originales, x, en ot.ras nuevas variables, y, de media cero y vari- 
anza unidad. Cada component-e del vector x, Xj para j = 1, .... p, se transforma con 
Dj = (xj — x])/sj. La matriz de varianzas y covarianzas de las nuevas variables sera la 
matriz de correlation de las variables primitivas. Esta transformation es la estandarizacion 
univariante de las variables. 

4.3.3 (*)Estandarizacion multivariante 

Dada una matriz definida positiva, S,.. puede definirse su rafz cuadrada S.'/ 2 . por la condition 

s* = SP(SP)' (4.9) 

La matriz Si 2 no es unica (vease 2.4.2). En efecto si S 1 . 2 verifica !a condicion (4.9) 

1/2 1/2 

tambien la verifica S : ,/ M, donde M es cualquier matriz ortogonal. La matriz S x puede 
construirse a partir de la descomposicion espectral 

S x = ADA' 

donde D es diagonal y contiene los valores propios de S.,. y A es ortogonal y contiene los 
vectores propios. Sea D 1 2 la matriz diagonal cuyos terminos son las rai'ces cuadradas de los 
terminos de D, que sou positivos. Definiendo la raiz cuadrada por la matriz simetrica: 

s‘/ 2 = AD 1/2 A' 


(4.10) 
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la variable 


y = S x 1/2 ( X ~ X ) 

tiene media cero y matriz de varianzas y covarianzas identidad, ya que 

C _ C-1/2C G-l/2 _ T 

'i 1 

Con esta transformacion pasamos de variables correladas, con matriz de covarianza S x , a 
variable incorreladas, con matriz de varianzas identidad. El nuevo conjunto de variables 
viene dado por 

Y = XS^ 1/2 = XAD' 1/2 A' 

Esta estandarizacion se denomina multivariante, ya que utiliza todas las covarianzas para 
estandarizar cada variable. Observemos que la estandarizacion univariante utiliza solo los 
terminos diagonales de S.„ para construir D l ^' 2 . y no tiene en cuenta las covarianzas, mientras 
que la multivariante utiliza toda la matriz. 

Ejemplo 4.7 La tabla A. 4 de los daos de INVEST presenta el numero de publicaciones 
recogidas en un trienio en 8 bases de datos de produccion cienttfica para los paises de la 
OCDE. (La descripcion de las fuentes se encuentra en el apendice de datos). En la figura 
4-10 se presenta un diagrama de cajas multiple (Boxplot) que permite, ademas de la explo- 
racion de cada una de las variables, comparar los rangos de todas ellas de forma conjunta. 



Figura 4.10: Diagrama de cajas de las variables de INVEST. 

En el grafico se observa la existencia de un atipico en todas las variables (EEUU) y una 
asimetria en la distribucion de todas las variables que puede estar producida por este dato. 
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INTER.A 

INTER.F 

AGRIC. 

BIOLO. 

MEDIC. 

QUIMI. 

INGEN. 

FISICA 

EE.UU 

4.2223 

4.0650 

3.9773 

3.5825 

4.1091 

3.3889 

4.1696 

4.0846 

UK 

0.4845 

0.5640 

1.2398 

1.4429 

0.5513 

0.2697 

-0.1532 

0.4831 

JP 

0.1627 

0.4247 

0.1562 

0.4567 

0.4788 

2.2109 

0.9060 

0.6573 

F 

0.2375 

0.3930 

0.1480 

0.0406 

0.3755 

0.5152 

-0.0054 

0.5237 

G 

0.0782 

0.5000 

0.0417 

0.7273 

0.2177 

0.0305 

0.0491 

0.1381 

C 

-0.0269 

0.0698 

0.1594 

0.4540 

-0.1104 

0.3521 

0.0793 

-0.0716 

I 

-0.1975 

-0.1687 

-0.1545 

0.2062 

0.0336 

-0.2367 

-0.1770 

-0.1643 

A 

-0.2363 

-0.2594 

0.0765 

-0.0645 

-0.3089 

-0.3865 

-0.2156 

-0.3065 

H 

-0.2719 

-0.3102 

-0.2232 

-0.2395 

-0.2811 

-0.3561 

-0.2611 

-0.2931 

S 

-0.2796 

-0.3325 

-0.3551 

-0.0918 

-0.2606 

-0.3982 

-0.3194 

-0.3839 

CH 

-0.2914 

-0.3527 

-0.3861 

-0.5353 

-0.3287 

-0.3895 

-0.3124 

-0.3210 

E 

-0.3490 

-0.3854 

-0.4009 

-0.5092 

-0.3994 

-0.4237 

-0.3660 

-0.4081 

B 

-0.3440 

-0.3857 

-0.3932 

-0.5069 

-0.3831 

-0.4554 

-0.3448 

-0.3877 

D 

-0.3590 

-0.5216 

-0.4241 

-0.3817 

-0.3782 

-0.4348 

-0.3686 

-0.4276 

AU 

-0.3803 

-0.3692 

-0.4856 

-0.6308 

-0.4224 

-0.5026 

-0.3636 

-0.4197 

FI 

-0.3800 

-0.4502 

-0.4552 

-0.4506 

-0.4260 

-0.5032 

-0.3767 

-0.4369 

N 

-0.3911 

-0.4626 

-0.4667 

-0.5608 

-0.4428 

-0.5150 

-0.3803 

-0.4598 

Y 

-0.4162 

-0.4925 

-0.4550 

-0.7199 

-0.4971 

-0.4996 

-0.3849 

-0.4315 

GR 

-0.4217 

-0.4950 

-0.5235 

-0.7124 

-0.5024 

-0.5412 

-0.3810 

-0.4454 

IR 

-0.4042 

-0.5257 

-0.5368 

-0.7256 

-0.5053 

-0.5620 

-0.3964 

-0.4574 

P 

-0.4360 

-0.5050 

-0.5391 

-0.7810 

-0.5197 

-0.5627 

-0.3976 

-0.4722 


Tabla 4.1: Estandarizacion univariante de INVEST 


Vam.os a estudiar para estos datos las dos estandarizaciones propuestas: 

Se observa que la estandarizacion univariante resalta el valor atipico de EEUU, pero 
mantiene sin cambios importantes las variables, que sufren solamente un cambio de escala. 

La estandarizacion multivariante transforma totalmente las variables originates. En la 
primera variable EEUU sigue siendo atipico, pero en las siguientes esta caracteristica desa- 
parece. En el capitulo siguiente, componentes principals, interpretaremos las propiedades 
de estas nuevas variables transformadas. 


4.4 TRANSFORMACIONES NO LINEALES 

4.4.1 Simplicidad en las distribuciones 

El analisis de un conjunto de datos multivariante es mas simple cuando su distribucion es 
simetrica y las relaciones entre las variables son lineales, y la mayorfa de los metodos multi- 
variantes hacen estas hipotesis. En estas condiciones, la matriz de varianzas y covarianzas 
es un buen resumen de las relaciones de dependencia existentes. 

A1 elegir las variables conviene tener en cuenta que la misma variable puede medirse de 
muchas formas, en principio igualmente validas. Por ejemplo, el consumo de gasolina de un 
autombvil se expresa en Europa en litros cada 100 kilbmetros (x) mientras que en EE.UU 
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2 /i 

2/2 

2 / 3 - 

2/4 

2/5 

2/6 

2/7 

2/8 

EE.UU 

4.15 

- 0.36 

1.53 

- 0.22 

- 0.46 

- 0.12 

0.12 

0.05 

UK 

0.64 

- 2.14 

- 2.70 

2.18 

0.00 

- 0.25 

0.18 

0.44 

JP 

0.70 

3.81 

- 1.77 

0.18 

- 0.43 

- 0.34 

- 0.60 

0.25 

F 

0.29 

0.58 

0.02 

1.78 

3.29 

0.11 

0.32 

- 0.81 

G 

0.23 

- 0.70 

- 1.11 

- 2.88 

1.90 

1.81 

- 0.65 

- 0.57 

C 

0.11 

0.18 

- 1.40 

- 0.64 

- 1.47 

1.72 

1.96 

- 0.36 

I 

- 0.11 

- 0.48 

- 0.61 

- 1.33 

0.34 

- 2.79 

- 1.84 

0.19 

A 

- 0.22 

- 0.66 

- 0.28 

0.52 

- 1.76 

0.92 

- 2.36 

- 0.56 

H 

- 0.29 

- 0.23 

0.05 

- 0.03 

- 0.42 

- 0.29 

- 0.66 

- 1.06 

S 

- 0.32 

- 0.35 

- 0.28 

- 1.14 

- 0.06 

- 1.25 

1.71 

0.94 

CH 

- 0.38 

0.08 

0.62 

0.32 

0.24 

- 0.06 

0.22 

0.92 

E 

- 0.42 

0.01 

0.40 

0.18 

- 0.01 

0.34 

0.36 

2.03 

B 

- 0.42 

- 0.05 

0.48 

0.12 

- 0.04 

0.14 

- 0.18 

0.91 

D 

- 0.43 

- 0.07 

0.12 

- 0.19 

- 0.48 

- 1.67 

1.41 

- 1.15 

AU 

- 0.47 

0.05 

0.73 

- 0.02 

0.34 

0.80 

- 0.50 

2.10 

FI 

- 0.46 

- 0.12 

0.31 

- 0.32 

- 0.17 

- 0.33 

0.65 

- 0.96 

N 

- 0.48 

- 0.03 

0.51 

- 0.04 

- 0.20 

- 0.07 

0.26 

0.90 

Y 

- 0.51 

0.14 

0.77 

0.68 

- 0.27 

0.47 

- 0.59 

- 0.62 

GR 

- 0.53 

0.12 

0.81 

0.23 

- 0.11 

0.33 

- 0.17 

- 1.38 

IR 

- 0.54 

0.09 

0.86 

0.26 

- 0.14 

- 0.00 

0.70 

- 1.31 

P 

- 0.55 

0.15 

0.93 

0.36 

- 0.09 

0.52 

- 0.35 

0.06 


Tabla 4.2: Estandarizacion multivariante de INVEST 


se expresa en km recorridos con 1 litro (o galon) de gasolina (■ y ). La relation entre ambas 
medidas es no lineal, ya que y = 100/x. Como segundo ejemplo, para medir el crecimiento 
de una variable C t en el t-iempo podemos calcular las diferencias C t — C t - 1 , pero en general 
resulta mas relevante considerar las diferencias relativas {C t —C t -i)/C t -i o (C t —C t -i)/C t . Si 
expresamos la variable en logaritmos, sus diferencias en dicha escala son una buena medida 
del crecimiento relativo, ya que: 


In C t — In C t -i 


In 


Ct 
Ct -1 


In 



Ct-Ct-A 
Ct _1 J 


Ct - C t _1 


C t - 1 


utilizando que ln(l I x) es aproximadamente x, si x es pequeno. Ademas, es facil demostrar 
que, supuesto C t > C t - 1 : 


C t - C t - 
Ct 


< In 


C t 


Ct- 


< 


Ct-Ci 


t - 1 


Ct- 


y las diferencias de las variables en logaritmos son una medida promedio de las dos formas 
posibles de medir el crecimiento relativo. El logaritmo es una de las transformaciones mas 
utilizadas para datos positivos ya que: 

(1) Las distribuciones que describen el tamano de las cosas (renta de pai'ses o familias 
habitantes en las principales ciudades del mundo, tamano de empresas, consumo de energfa 
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eii hogares, etc), son generalmente muy asimetricas, pero se convierten en aproximadamente 
simetricas al expresar la variable en logaritmos. 

(2) Cuando las diferencias relat.ivas entre los valores de la variable sean importantes, 
conviene expresar las variables en logaritmos, ya que las diferencias entre logaritmos equivalen 
a diferencias relativas en la escala original. 

(3) La variabilidad de las variable transformada es independiente de las unidades de 
medida. 

Para comprobar esta ultima propiedad, supongamos una variable escalar x que transfor- 
mamos con y = log a: y la variable transformada t-iene media y y varianza Sy. Si cambiamos 
las unidades de medida de x multiplicando por una constante, z = kx , entonces la variable 
logz tiene media y + log k y la misma varianza que la variable log x. 

4.4.2 Simplicidad en las relaciones 

Es frecuente con datos economicos observar fuertes relaciones no lineales entre las variables. 
En estos casos, el analisis de los datos se simplifica mucho si transformamos las variables 
de manera que las nuevas variables tengan relaciones lineales. Por ejemplo, una relation 
frecuente es del tipo proportional 

y = kx b (4-11) 

que implica que si la variable x aumenta en una unidad la variable y aumenta (supuesto b > 0) 
una cant-idad que depende del valor de x, pero el incremento proportional de y cuando x 
aumenta un 1% es constante e igual al b%. Esta relation suele ir unida a heterocedasticidad 
en la relation, manifestada en una mayor variabilidad en el grafico de dispersion cuando las 
variables toman valores altos que en la zona de valores bajos. La relation puede convertirse 
en lineal y homocedastica (varianza constante) transformando las variables en logaritmos. 
En efecto, tomando logaritmos en (4.11) y llamando y* = logy, x* = log x tenemos una 
relation lineal entre las nuevas variables (x*y*). A la hora de decidir si transformar o no 
las variables es importante tener en cuenta la interpretation de las nuevas variables. 

Las transformaciones habituales de las variables individuals pueden escribirse mediante 
la familia potential de Box-Cox: 

' = — — — , para A 7^ 0 

= logo:, para A = 0. 

Un estudio mas detallado de esta transformation incluyendo la estimation del parametro A 
se realizara en el capftulo 10. La transformacion puede extenderse para tratar de transformar 
conjuntamente el vector de variables para que todas las distribuciones conjuntas de grupos 
de variables sean simetricas. (vease Gnanadesikan, 1997). 

Ejemplo 4.8 La figura 4-11 presenta los diagramas de dispersion de las variables de INVES 
en logaritmos con los histogramas de las variables en la diagonal principal. Este grafico se 
ha hecho con Matlab. Se observa que la transformacion logantmica hace las relaciones mas 
lineales y los histogramas de todas las variables mas simetricos. 
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Ejemplo 4.9 La figura J^.12 muestra la representation de los datos de EPF en logaritmos. 
Se observa que las relaciones son aproximadamente lineales y los histogramas simetricos. 

4.5 DATOS ATlPICOS 

4.5.1 Definicion 

Llamaremos datos ati'picos a aquellas observaciones que parecen haberse generado de forma 
distinta al resto de los datos. Pueden ser causadas por errores de medicion o transcription, 
cambios en el instrumento de medicion o a heterogeneidad intrfnseca de los element-os obser- 
vados. Por ejemplo, supongamos que estamos est-udiando las caracten'st-icas de las viviendas 
en una zona urbana donde la gran mayorfa son pisos, pero se ha incluido en la muestra 
una gran vivienda unifamiliar con jardrn. Est-a observacion sera ati'pica y corresponde a una 
heterogeneidad real de los datos. Es importante detectarla ya que obtendremos una mejor 
description de los datos separando ambos tipos de viviendas. 

Los analisis efect-uados sobre datos recogidos en condiciones de estrecho control, revelan 
que es frecuent-e que aparezcan entre un 1% y un 3% de observaciones at-fpicas respect-o al 
resto de la muestra. Cuando los datos se han recogido sin un cuidado especial, la proportion 
de datos ati'picos puede llegar al 5% y ser incluso mayor. 

La caracterizacion de un solo valor ati'pico es simple ya que, por definition, debe est-ar 
alejado del resto, con lo que la distancia entre el ati'pico y el resto de las observaciones sera 
grande. Alternativamente, podemos definir una ati'pico como aquel punto que se encuentra 
lejos del centro de los datos. Llamando x al vector de medias y utilizando como medida de 
distancia la distancia euch'dea, una observacion x* sera ati'pica en esta metrica si 

d^(x.,x) = [(xi-xj^xi-x)] 172 

es grande. Para identificar las observaciones at-fpicas podrfamos hacer un histograma de 
estas distancias y ver si exist-en punt-os mucho mas alejados que los demas. Sin embargo, 
como hemos visto, est-a medida de distancia no es razonable cuando exist-a dependencia 
entre las observaciones. La figura 4.13 ilustra una situacion donde el punto + es claramente 
ati'pico y, sin embargo, ni esta a una distancia euch'dea grande del centro de los datos, ni 
aparecera como ati'pico al analizar cada variable aisladament-e. El problema es que, como 
vimos, la distancia euch'dea no t-iene en cuenta la estructura de correlation de los dat-os, 
y una posibilidad mejor es estandarizar previament-e los dat-os de forma multivariante. De 
esta manera los dat-os transformados t-ienen media cero y mat-riz de covarianzas ident-idad, y 
podemos buscar ati'picos con la distancia euch'dea, eliminando el problema de la correlation 
ent-re las variables. Definiendo, como antes, las variables est-andarizadas multivariantemente 
por: 


y = s * 1/2 ( x - x ) 

La distancia euch'dea al cuadrado entre una observation, y t , y su media, cero, sera 

4(y*,o) = y|yi = (xi-x/s-^xi-x) = 4( x » x ) 



4.5. DATOS ATIPICOS 


121 


y la distancia eucli'dea entre las variables incorreladas equivale a la distancia de Mahalanobis 
entre las variables originales. Podn'amos entonces identificar datos ati'picos calculando las 
distancias de Mahalanobis para todos ellos y viendo si existe algun punto con una distancia 
mucho mayor que el resto. 


4.5.2 Los efectos de los atfpicos 

Las consecuencias de una sola observacion ati'pica pueden ser graves: distorsionar las medias 
y desviaciones ti'picas de las variables y destruir las relaciones existentes entre ellas. Para 
ilustrar est-e problema, supongamos que eu una muestra multivariante de tarnano n se 
introduce un valor ati'pico, x OJ donde x a es un vector de falsas observaciones. Llamando x 
y S al vector de medias y matriz de covarianzas sin la observacion x OJ y x c y S c a los de la 
muestra contaminada con este dat-o ati'pico, es facil comprobar (vease ejercicio 4.4) que 


y 


X 


C 


x + 


(x a -x) 
n + 1 


(4.12) 


S c 


n g + (x a -x)(x a -x) / n 
n — 1 n + 1 (n + 1) 


(4.13) 


Estas formulas indican que un solo dato ati'pico puede afectar mucho al vector de medias 
y a todas las varianzas y covarianzas entre las variables. El efecto del ati'pico depende de 
su tarnano, medido por su distancia eucli'dea al centro del resto de las observaciones, pero 
tambien de su posicion, ya que los terminos mas afectados de la matriz S dependen de la 
posicion del ati'pico en el espacio. En general, si el tarnano del ati'pico es grande, lo que 
supone |x a — x| grande, la media, varianzas y covarianzas de las variables pueden estar muy 
distorsionadas. 

Para analizar con mas detalle la distorsion de los coeficientes de correlacion, consideremos 
el caso mas simple de p = 2 y supongamos que x = 0, S = I, y n no muy pequeno de manera 
que, para simplificar la presentacion, tomaremos n ^ n + 1. Sea x a = (ai, a 2 )' J supongamos 
para simplificar que x c ^ x = 0. Llamando a los elementos de S c y tomando n ^ n + 1, 
en (4.13) tendremos que 


y 


S c . ^ 1 + — 

n 


i = 1,2 



J 

n 


* +3 


con lo que el coeficieut.e de correlacion entre las dos variables sera: 


O1O2 

(n + al ) (n + af) l / 2 ' 


(4.14) 


Esta expresion muestra que si «i y 02 tienen el mismo signo y son grandes con relacion a yjn 
el coeficiente tiende a uno, mientras que si tienen signos opuestos, el coeficient.e tiende hacia 
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menos uno. Vemos que la distorsion que produce el ati'pico depende no solo de su tamano 
sino tambien de su posicion en el espacio. 

La conclusion de este ejercicio es que una sola observacion puede distorsionar arbitrari- 
amente los coeficientes de correlacion entre las variables. En la figura 4.14 hemos anadido 
a dos variables incorreladas una observacion ati'pica, marcada por a, con a = (9,9) / . Como 
indica la teorfa que hemos visto, esta unica observacion introduce una alta correlacion entre 
las variables, creando una relacion inexistent-e. 

La figura 4.15 ilustra como una unica observacion puede ocultar una relacion existente: 
la observacion ati'pica a destruye la fuerte correlacion existente entre las variables. 

Cuando existe mas de un ati'pico en los datos, puede producirse el efecto conocido como 
enmascaramiento, que consiste en que observaciones at-fpicas similares se ocultan entre si. 
Por ejemplo, supongamos que en la figura 4.13 en la posicion del ati'pico hay tres puntos 
ident-icos. Aunque eliminemos el primero, los otros dos continuaran distorsionando el calculo 
de las medias y varianzas, haciendo muy difi'cil su identificacion, ya que cada punto enmascara 
a los otros. 

4.5.3 (*)Identificaci6n de grupos de atfpicos 

Hay dos filosofi'as para tratar con la heterogeneidad. La primera es utilizar estimadores 
robustos, que son estimadores disenados para verse poco afectados por cierta contaminacion 
de atfpicos. Comentaremos estos estimadores en el capftulo 11. La segunda es detectar los 
atfpicos, y aplicar el calculo de los estimadores a las muestras limpias de atfpicos. Ambos 
enfoques son complementarios, y en esta seccion introduciremos el segundo. 

El procedimiento para detectar grupos de atfpicos es eliminar de la muestra todos los 
puntos sospechosos, de manera que evitemos el enmascaramiento y podamos calcular el 
vector de medias y la matriz de covarianzas sin distorsiones. A continuacidn identificaremos 
con estos estimadores la dist-ancia de cada punto sospechoso respecto al centro de los datos, y 
consideraremos atfpicos a los muy alejados. El primer paso para identificar las observaciones 
sospechosas es detectar aquellas que lo sean claramente respecto a una variable. Para ello 
podemos utilizar el histograma o los diagramas de caja, como hemos visto en los ejemplos 
anteriores. Una regia simple y automatica es considerar sospechosas aquellas observaciones 
tales que 


| Xi — med(x) \ ^ 

Meda(x) ’ ’ 

donde med(x ) es la mediana de las observaciones, que es un estimador robusto del centro 
de los datos, y Meda(x ) es la mediana de las desviaciones absolutas \xi — med(x) | , que es 
una medida robust-a de la dispersion. Este metodo puede verse como una estandarizacion 
robusta de los datos. 

Esta deteccion univariante no identificara muchos atfpicos multivariantes. Por ejemplo, el 
punto (-1,1) marcado con + en el grafico 4.13 es claramente ati'pico, pero no aparecera como 
tal en los analisis univariantes. Con frecuencia los atfpicos multivariantes corresponden 
a sit-uaciones con efectos pequenos sobre todas las variables, como un error sistemat-ico de 
observacion en todas ellas, en lugar de un efecto important^ sobre una variable. Si el numero 
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de variables no es muy grande, los diagramas de dispersion pueden ayudar visualmente a 
determinar datos ati'picos en dos dimensiones. Para dimensiones mayores no es recomendable 
utilizar la distancia de Mahalanobis, ya que si existen grupos de ati'picos, pueden distorsionar 
la estimation del centro y la dispersion de los datos enmascarando los ati'picos y quizas 
senalando como ati'picos a puntos que no lo son. 

Para evit-ar este problema podemos buscar proyecciones de los datos que muestren las 
observations ati'picas. Observemos que cualquier observation at-fpica multivariante debe 
aparecer como at-fpica al menos en una direction de proyeccion: la definida por la recta 
que une el centro de los datos con el dato ati'pico. En base a esta idea, Stahel (1981) y 
Donoho (1982) propusieron general’ muchas direcciones al azar, proyectar los puntos sobre 
estas direcciones y marcar como datos ati'picos a aquellas observaciones que aparecen como 
ext-remas en estas proyecciones. Para general - direcciones al azar pueden tomarse muestras 
al azar de p puntos, calcular el piano que las contiene y tomar como direction el vector 
ortogonal al piano. 

Este metodo funciona bien con pocas variables, pero al aumentar la dimension del proble- 
ma el mimero de direcciones que necesitamos general - para cubrir razonablemente el espacio 
y tener garanti'as de exit-o aumenta exponencialment-e. Una solution propuesta por Pena y 
Prieto (2001), es proyectar los datos sobre ciertas direcciones especfficas, escogidas de manera 
que t-engan alta probabilidad de mostrar los atipicos cuando existan. Hemos coment-ado que 
en muestras univariantes una pequena proportion de ati'picos hace aumentar el coeficient-e 
de kurtosis, lo que sugiere investigar las direcciones donde los puntos proyectados t-engan 
maxima kurtosis univariante. Por otro lado, un grupo grande de ati'picos puede producir 
bimodalidad y baja kurtosis, por lo que conviene tambien explorar las direcciones donde 
los puntos proyectados t-engan minima kurtosis. La idea del procedimiento es buscar p di- 
recciones ortogonales de maxima kurtosis y p direcciones ortogonales de minima kurtosis, 
eliminar provisionalment-e los dat-os ext-remos en est-as direcciones, calcular la media y la ma- 
triz de covarianzas con los dat-os no sospechosos y despues identificar los dat-os ati'picos como 
aquellos que son ext-remos con la distancia de Mahalanobis calculada con las est-imaciones no 
contaminadas. Dada la muestra multivariante (xi, ...,x n ), el proceso se realiza como sigue: 

1. Sean x y S el vector de medias y la matriz de covarianzas de los dat-os. Est-andarizar 

i /o 

los dat-os de forma multivariante y sean z, = S.,- 7 (x— x) los dat-os estandarizados 
con media cero y matriz de covarianzas identidad. Tomar j — 1 y z - 1 * = z,. 

2. Calcular la direction d ; con norma unidad que maximiza el coeficient-e de kurtosis 
univariante de los datos proyectados. Llamando yf } = d'z^, a las dat-os proyectado 
sobre la direction d ; , est-a direction se obtiene como solucion de: 

max £>P-#) 4 + A(d'd-l) 
que puede resolverse como se indica en el apendice 4.1. 

3. Proyectar los dat-os sobre un espacio de dimension p — j definido como el espacio 
ortogonal a la direction d ; . Para ello tomar z (J 11 '= (I — d vl) jz ( ' ,:i . Hacer j = j 4-1. 

4. Repet-ir (2) y (3) hast-a obtener las p direcciones, di, ..., d p . 
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5. Repetir (2) y (3) pero ahora minimizando la kurtosis en lugar de maximizarla para 
obtener otras p direcciones, d p+ i, d 2p 

6. Considerar como sospechosos aquellos puntos que en alguna de estas 2 p direcciones 
est.an claramente alejados del rest.o, es decir, verifican 

y\^ — med(y 

> 5 

Meda(yk>)) 

A continuation se eliminan todos los valores sospechosos detectados y se vuelve a 2 para 
analizar los datos restantes. La estandarizacion multivariante ahora se realizara con la nueva 
media y matriz de covarianzas de los datos restantes. Los pasos 2 a 6 se repiten hasta que 
no se detecten mas datos ati'picos o se haya eliminado una proportion de datos prehjada, 
por ejemplo un maximo del 40% de los datos. 

Una vez que la muestra no contenga mas valores sospechosos con el criterio anterior se 
calcula el vector de medias, xr, y la matriz de covarianzas, Sr, de los datos no sospechosos, 
y las distancias de Mahalanobis para los sospechosos como: 

4( x ,;,Xr) = (x i -XR)S R 1 (x i -x R ) / 

Por razones que veremos mas adelante al estudiar contrastes de valores ati'picos en el capftulo 
10, aquellos valores mayores que p + 3y/2p se consideran ati'picos (recordemos que el valor 
promedio de la distancia de Mahalanobis es p). Algunos puntos del conjunto de sospechosos 
seran ati'picos y ot.ros no. Los ati'picos son desechados, y los buenos incoporados al conjunto 
de puntos. Finalmente, se calculara un vector de medias, x/, y una matriz de covarianzas, 
S f , con los puntos no ati'picos, que seran las estimaciones finales obtenidas de los datos. 

En el capftulo 11 presentaremos metodos formales para contrastar si unos datos son 
ati'picos respecto a un modelo. En el apendice 4.1 se detalla el calculo de las direcciones que 
maximizan la kurtosis. El procedimiento converge rapidamente en general. Un programa de 
ordenador en Matlab para ejecut.ar est.e algoritmo puede bajarse de la direction http:/****** 

Los datos detectados como potencialmente ati'picos deben ser estudiadas con detalle para 
determinar las causas de la heterogeneidad. Si estos datos no tienen un error detectable, 
conviene, cuando sea posible, investigar las causas de su tamano anomalo ya que puede 
llevar a importantes descubr indent. os. Si no hay un error en el dat.o y, sin embargo, es 
muy distinto de los demas, hay que sospechar que sobre esa observation ha actuado alguna 
causa que no ha estado act.iva en el resto de las observations. Por ejemplo, una variable no 
inclufda en el estudio ha tornado un valor distinto en esa observation y es responsable del 
cambio observado. El descubrimiento de esta variable insospechada puede ser el resultado 
mas importante del estudio estadi'st.ico. Muchos descubrimientos cientfhcos importantes, 
(por ejemplo la penicilina) y muchas patentes industriales, han surgido de la investigation 
para determinar las razones de un dat.o anomalo. 

Ejemplo 4.10 Buscaremos datos atipicos en los datos de la EPF. En primer lugar calcu- 
lamos las distancias de Mahalanobis de cada dat.o al cent.ro de todos ellos. Estas distancias 
se presentan en el histogram, a de la figura 4 . 16. Las provincias mas alejadas del cent.ro de 
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los datos son, por este orden, Madrid (D=4-29), Gerona (D=3.98) y Navarra (3.97). Si 
aplicamos ahora el procedimiento de buscar direcciones extrenms en la kurtosis, obtenemos 
los graficos de las figuras 4-17, 4-18, 4-19 y 4-20. Si eliminamos estos nueve posibles datos 
extremes y calculam.os las distancias de Mahalanobis con las medias y covarianzas calcu- 
ladas sin estos datos obt.enem.os el histogram, a de la figura 4-21 ■ Las dos observaciones 
claramente extrem.as corresponden a Madrid y Barcelona. Observemos que en el analisis 
inicial Barcelona quedaba oculta (enm.ascarada) por la presencia de Madrid, pero aparece 
claramente como atipica cuando se elimina el efecto de Madrid. 

Ejemplo 4.11 Vamos analizar los datos de los sect, ores industriales en Europa. EUROSEC. 
Como las variables sum, an 100 aproxim.adamente eliminaremos la ultim.a y trabajaremos por 
tanto con ocho variables. La figura 4-22 present, a el histogram, a de estas distancias. Hay tres 
paises m.uy alejados del resto que son Yugoeslavia (D = 4.17), Luxemburgo (D = 4.16) y 
Turquia (D = 4.02). Estos tres paises estan separados del resto y son atipicos en su estructura 
de empleo. 

Para entender la razon dividiremos los valores de cada uno de estos tres paises por la 
media. La tabla siguient.e present, a los valores medios, el pais mas proxim.o en la distancia 
de Mahalanobis a esta estructura media (Francia, D = 1.4) y los cocientes entre los valores 
del pais m.as extreme y los valores medios. 


Media 

19.1 

1.25 

27.00 

0.91 

8.16 

12.95 

4.00 

20.02 

Francia /Med 

0.56 

0.64 

1.01 

.99 

1.09 

1.30 

1.50 

1.13 

Yugoes/Med 

2.54 

1.19 

0.62 

1.21 

0.60 

0.49 

2.82 

0.26 


En esta tabla aparece claramente el caracter atipico de Yugoslavia: tiene m.as del doble 
de poblacion empleada en Agricult, ura y finanzas que el pais medio y la mitad de empleo en 
los servicios. 

Vamos a comparar este result, ado con el que se obtendria buscando posibles grupos de 
atipicos. Las figuras 4-23, 4-24> V ?? present.an las proyecciones sobre la direccion que 
maxim, iza la kurtosis de los datos y dos direcciones ortogonales a ella. 

En la primera direccion aparece como extremo el punt.o 7 (Luxemburgo), en la segunda 
el 26 (Yugoeslavia) y en la tercera el 15 (Espaha) y el 18 (Turquia). Es interesant.e que si 
elim.inam.os estos cuatro punt, os y calculam.os las distancias de Mahalanobis del resto a estos 
cuatro paises, Espaha aparece m.as alejada que Luxemburgo. 

4.6 Lect liras complement arias 

El libro de Gnanadesikan (1997) ampli'a el material de este capi'tulo incluyendo otros met-odos 
graficos para los datos, como las curvas de Andrews, donde cada observation se representa 
for una funcidn f(t). Este libro tambien considera con det-alle la transformation Box- Cox 
multivariante, que ha sido estudiada, entre otros por Velilla (1993,1995) y Atkinson (19 ). La 
deteccion de atipicos multivariantes ha sido objeto de numeros trabajos. Algunas referencias 
recientes son Rousseeuw y van Zomeren (1990), Atkinson (1994), Maronna y Yohai (1995), 
, Rocke y Woodruff (1996) y Juan y Prieto (2001). Volveremos sobre este tema al presentar 
los estimadores robust-os en el capft-ulo 11. 

EJERCICIOS 

4.1 Construir los diagramas de dispersion con un programa de ordenador como Mat-lab, 
Minit-ab o Spss para los dat-os de EUROSEC. 

4.2 Demost-rar que un cambio de medida de las variables que equivale a una transforma- 
tion lineal no modifica su matriz de correlation. 

4.3 Demost-rar que la estandarizacion univariante no modifica la matriz de correlation de 
las variables. 

4.3 Demostrar que la estandarizacion multivariante hace cero los coeficientes de cor- 
relation partial entre las nuevas variables. 

4.4 Demost-rar que si introducimos un dat-o at-fpico en una muestra con vector de medias 
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Figura 4.6: Matriz de dispersion para los datos de la medidas fi'sicas (MEDIFIS) 
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Figura 4.7: Representation de las contribuciones cienti'ficas de los pai'ses de INVEST en caras 
de Chernoff 
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Figura 4.8: Esquema de asignacion de los radios de la estrella a la variables para los datos 
de la investigation de los pai'ses de la OCEDE 
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Figura 4.9: Representation mediant-e estrellas de los pai'ses de INVEST en logaritmos una 
vez eliminado EEUU. 


Figura 4.11: Distribuciones conjuntas y marginales de las variables de INVES en logaritmos. 
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Figura 4.12: Los datos de EPF en logaritmos. Represent aciones bivariantes e histogramas. 


Figura 4.13: Una observacion atfpica multivariante que no aparece como tal en los analisis 
univari antes. 
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Figura 4.14: Eli esta figura las variables estaban originalmente casi incorreladas (r = —.11), 
pero la presencia del valor ati'pico ha creado una fuerte correlacion posit-iva (r = .71). 


Figura 4.15: Eii esta figura el coeficiente de correlacion sin el dato atipico es de 0,91 y 
disminuye hasta 0,41 por la presencia del ati'pico marcado con a. 
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Figura 4.16: Distribution de las distancias de Mahalanobis entre cada dato y el centra para 
los datos de la EPF 


*+ % * + 
* 


# * *, ♦ 
*** * 






+ + ' 


+ Ceuta 
50 60 


Figura 4.17: Primera proyeccion en la direction de maxima kurtosis para los datos de la 
EPF 
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Figura 4.18: 
EPF 
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Figura 4.19: Tercera proyeccion en la direction de maxima curtosis para los datos de la EPF 
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Figura 4.20: 
EPF 
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Cuarta proyeccion sobre la direccion de maxima curtosis para los datos de la 



Figura 4.21: Distancias de Mahalanobis para los datos de la EPF calculadas de manera 
robusta, eliminando los datos extremos. 
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Figura 4.22: Distancias de Mahalanobis de cada dato al centra de la muestra para los datos 
de EUROSEC. 
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Figura 4.23: Proyeccion sobre la direccion de maxima curtosis 
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Figura 4.24: Proyeccion sobre la segunda direction de maxima curtosis ortogonal a la primera 
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Capftulo 5 

COMPONENTES PRINCIPALES 


5.1 INTRODUCTION 

Un problema central en el analisis de datos multivariantes es la reduccion de la dimen- 
sionalidad: si es posible describir con precision los valores de p variables por un pequeno 
subconjunto r < p de ellas, se habra reducido la dimension del problema a costa de una 
pequeiia perdida de information. 

El analisis de componentes principales tiene este objet-ivo: dadas n observations de p 
variables, se analiza si es posible representar adecuadamente esta information con un numero 
menor de variables construidas como combinaciones lineales de las originales. Por ejemplo, 
con variables con alta dependencia es frecuente que un pequeno numero de uuevas variables 
(menos del 20% de las originales ) expliquen la mayor parte (mas del 80%) de la variabilidad 
original. 

La tecnica de componentes principales es debida a Hotelling (1933), aunque sus on'genes 
se encuentran en los ajustes ortogonales por mi'nimos cuadrados int-roducidos por K. Pearson 
(1901). Su utilidad es doble: 


1. Permite representar optimamente en un espacio de dimension pequeiia, observations 
de un espacio general p-dimensional. En este sentido componentes principales es el 
primer paso para identificar posibles variables ’’latentes” o no observadas, que estan 
generando la variabilidad de los datos. 

2. Permite transformar las variables originales, en general correladas, en nuevas variables 
incorreladas, facilitando la interpretation de los datos. 


En este capftulo preseutamos unicamente esta tecnica como una herramienta exploratoria 
para facilit-ar la description e interpretation de los datos. El problema de inferir si las 
propiedades de reduction de la dimension encontradas en los datos puede extenderse a una 
poblacion se est-udiara en el capftulo de analisis factorial. 
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5.2 PLANTEAMIENTO DEL PROBLEMA 


Supongamos que se dispone de los valores de p- variables en n elementos de una poblacion 
dispuest-os en una matriz X de dimensiones n x p. donde las columnas contienen las variables 
y las filas los elementos. Supondremos en este capftulo que previamente hemos rest-ado a 
cada variable su media, de manera que las variables de la matriz X t-ienen media cero y su 
matriz de covarianzas vendra dada por 1/n X'X. 

El problema que se desea resolver es como encoutrar un espacio de dimension mas re- 
ducida que represente adecuadamente los datos. El problema puede abordarse desde t-res 
perspectivas equivalentes. 


a) Enfoque descriptivo 

Se desea encontrar un subespacio de dimension menor que p tal que al proyectar sobre el los 
puntos conserven su estructura con la menor distorsion posible. Veamos como convertir esta 
nocion intuitiva en un criterio matematico operat-ivo. Consideremos primero un subespacio 
de dimension uno, una recta. Se desea que las proyecciones de los puntos sobre esta recta 
mantengan, lo mas posible, sus posiciones relat-ivas. Para concretar, consideremos el caso 
de dos dimensiones ( p = 2). La figura 5.1 indica el diagrama de dispersion y una recta 
que, intuitivamente, proporciona un buen resumen de los datos, ya que las proyecciones de 
los puntos sobre ella indican aproximadamente la situacion de los puntos en el piano. La 
representation es buena porque la recta pasa cerca de t-odos los puntos y est-os se deforman 
poco al proyectarlos. Esta propiedad puede concret-arse exigiendo que las distancias entre 
los puntos originales y sus proyecciones sobre la recta sean lo mas pequenas posibles. En 
consecuencia, si consideramos un punto x* y una direccion a! = (an, ..., a lp )'. definida por 
un vector ax de norma unidad, la proyeccion del punto x, sobre esta direction es el escalar: 


Zi — aiiXn + . . . + aipXip — a^Xj 


(5.1) 


y el vector que represent.a esta proyeccion sera z i a l . Llamando r, a la distancia entre el punto 
Xj, y su proyeccion sobre la direction ai, este criterio implica: 


n n 

minimizar x, : — ^ail 2 , 

i= 1 i=l 


(5.2) 


donde lul es la norma euch'dea o modulo del vector u. 
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Figura 5.1: Ejemplo de la recta que minimiza las distancias ortogonales de los puntos a ella. 

La figura (5.1) muestra que al proyectar cada punto sobre la recta se forma un triangulo 
rectangulo donde la hipotenusa es la distancia al origen del punto al origen, (x'xj) 1 / 2 , y los 
catetos la proyeccion del punto sobre la recta (z t ) y la distancia entre el punto y su proyeccion 
(?y). Por el teorema de Pitagoras, podemos escribir: 

x-Xi = Zi 2 + rf , (5.3) 

y sumando esta expresion para todos los puntos, se obtiene: 

n n n 

= r * ■ ( 5 - 4 ) 
i= 1 i= 1 i=l 

Como el primer miembro es const-ante, minimizar ^17=1 r h suma de las distancias a 
la recta de todos los puntos, es equivalente a maximizar )T)" =1 zf. la suma al cuadrado de 
los valores de las proyecciones. Como las proyecciones Zi son, por (9.21) variables de media 
cero, maximizar la suma de sus cuadrados equivale a mazimizar su varianza. Este resultado 
es iutuitivo: la recta de la figura 5.1 parece adecuada porque conserva lo mas posible la 
variabilidad original de los puntos. El lector puede convencerse considerando una direccion 
de proyeccion perpendicular a la de la recta en esta figura: los puntos tendn'an muy poca 
variabilidad y perderiamos la informacion sobre sus distancias en el espacio. 

El objetivo de proyectar los puntos con minima deformacion puede abordarse desde otro 
punto de vista que conduce al mismo resultado final. En el espacio de p-dimensiones, lo 
caracterfstico de la nube de puntos son sus distancias relativas. Tratemos de encontrar un 
subespacio de dimension 1, es decir, un recta tal que los puntos proyectados conserven lo 
mas posible sus distancias relativas. Si llamamos d 2 - = x'x ? a los cuadrados de las distancias 
originates entre los puntos y d 2 - = (zi — Zj ) 2 a las distancias entre los puntos proyectados 
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sobre una recta, deseamos que 


B = EE<4-4) 

i j 

sea minima. Como la suma de las dist-ancias originales es fija, minimizar D require maximizar 

Xp d?j, las distancias entre los punt-os proyectados. Se demuestra en el apendice 5.1 que 
la direccion es la misma que proporciona una variable escalar de varianza maxima. 

b) Enfoque estadfstico: 

Representar puntos p dimensionales con la minima perdida de informacion en un espacio de 
dimension uno es equivalente a sustituir las p variables originales por una nueva variable, 
Zi, que resuma optimamente la informacion. Esto supone que la nueva variable debe t-ener 
globalment-e maxima correlacion con las originales o, en otros terminos, debe permitir prever 
las variables originales con la maxima precision. Esto no sera posible si la nueva variable 
t-oma un valor semejant-e en t-odos los element-os, y, se demuest-ra en el apendice 5.2, que 
la condicion para que podamos prever con la minima perdida de informacion los dat-os 
observados, es utilizar la variable de maxima variabilidad. 

Volviendo a la figura 5.1 se observa que la variable escalar obtenida al proyectar los 
punt-os sobre la recta sirve para prever bien el conjunto de los dat-os. La recta indicada en 
la figura no es la linea de regresion de ninguna de las variables con respecto a la otra, que 
se obtienen minimizando las distancias verticales u horizontales, sino que al minimizar las 
dist-ancias ort-ogonales o de proyeccion se encuentra entre ambas rectas de regresion. 

Este enfoque puede extenderse para obtener el mejor subespacio resumen de los dat-os 
de dimension 2. Para ello calcularemos el piano que mejor aproxima a los punt-os. El 
problema se reduce a encontrar una nueva direccion definida por un vector unitario, a 2 , 
que, sin perdida de generalidad, puede tomarse ort-ogonal a ai, y que verifique la condicion 
de que la proyeccion de un punt-o sobre este eje maximice las distancias entre los punt-os 
proyectados. Est-adi'sticament-e esto equivale a encontrar una segunda variable z 2l incorrelada 
con la anterior, y que t-enga varianza maxima. En general, la componente z r (r < p) t-endra 
varianza maxima entre t-odas las combinaciones lineales de las p variables X originales, con 
la condicion de estar incorrelada con las z i, ..., z r -\ previamente obtenidas. 

c) enfoque geometrico 

El problema puede abordarse desde un punt-o de vist-a geometrico con el mismo result-ado 
final. Si consideramos la nube de punt-os de la figura 5.1 vemos que los punt-os se situan 
siguiendo una elipse y podemos describir su orientation dando la direction del eje mayor de 
la elipse y la position de los punto por su proyeccion sobre est-a direction. Puede demost-rarse 
que este eje es la recta que minimiza las dist-ancias ortogonales y volvemos al problema que 
ya fiernos resuelt-o. En varias dimensiones tendremos elipsoides y la mejor aproximacion a 
los datos es la proporcionada por el eje mayor del elipsoide. Considerar los ejes del elipsoide 
como nuevas variables originales supone pasar de variables correladas a variables ort-ogonales, 
como veremos a continuacion. 
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5.3 CALCULO DE LOS COMPONENTES 

5.3.1 Calculo del primer componente 

El primer componente principal sera la combination lineal de las variables originates que 
tenga varianza maxima. Los valores de este primer componente en los n individuos se 
representaran por un vector zi, dado por 

zi = Xai. 

Como las variables originates tienen media cero tambien zx tendra media nula. Su vari- 
anza sera: 

Var( zA = —z[zi = — a'.X'Xa! = a^Sax (5.5) 

n n 

donde S es la matriz de varianzas y covarianzas de las observations. Es obvio que podemos 
maximizar la varianza sin limite aumentando el modulo del vector ai. Para que la maxi- 
mization de (5.5) tenga solution debemos imponer una restriction al modulo del vector a 1; 
y, sin perdida de generalidad, impondremos que a) a , = 1 . Intro duciremos esta restriction 
mediante el multiplicador de Lagrange: 

M = a^Sai — A^ai — 1) 

y maximizaremos esta expresion de la forma habitual derivando respecto a los componentes 
de ai e igualando a cero. Entonces 

dM 

— — = 2Sax - 2Aa x = 0 

U3-i 


cuya solution es: 


Sax = Aax, (5.6) 

que implica que a x es un vector propio de la matriz S, y A su correspondiente valor propio. 
Para determinar que valor propio de S es la solution de la ecuacion (5.6) tendremos en cuenta 
que, multiplicando por la izquierda por a) esta ecuacion, 

axSax = Aajax = A 

y concluimos, por (5.5), que A es la varianza de z 1 . Como esta es la cantidad que queremos 
maximizar, A sera el mayor valor propio de la matriz S. Su vector asociado, a l5 define los 
coeficientes de cada variable en el primer componente principal. 

Ejemplo 5.1 Ilustraremos con detalle el calculo de la primera componente principal con los 
datos de los logaritmos de las ACCIONES, tabla A. 7. Los paquetes estadisticos habituates 
(Minitab, SPSS, Statgraphics, etc) proporcionan directamente los componentes principals, 
pero vam.os a indicar con detalle como se realizan los calculos para el lector interesado. 
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La matriz de varianzas y covarianzas de estos datos en logaritmos, que ya utilizamos en 
el ejemplo 3.5, es, 


S = 


0.35 0.15 -0.19 

0.15 0.13 -0.03 

-0.19 -0.03 0.16 


Para el calculo de los autovalores tenemos que calcular las razees de la ecuacion: 


> — AI = 

0.35 

0.15 -0.19 ' 


' A 

0 

0 

0.15 

0.13 -0.03 

— 

0 

A 

0 

_ -0.19 

-0.03 0.16 


0 

0 

A 

, 000382 - 

0, 0628A + 0, 64A 2 - 

-A 3 




Las razees del polinomio, obtenidas con MATLAB son Ai = 0.521, A 2 = 0.113, A 3 = 
6.51 x 10 3 . El autovector asociado a Ai nos da los pesos de la primera componente principal. 
Para calcular el primer autovector resolvemos el sistem.a 


Scii — A1&1 


que conduce a: 


0.35 0.15 -0.19 ' 


dn 


dn 

0.15 0.13 -0.03 


di2 

= 0.521 x 

di2 

-0.19 -0.03 0.16 


«13 


«13 


— 0.171on + 0.15ai2 — 0.19eii3 
0.15dn — 0.391di2 — 0.03di 3 
— 0.19dn — 0.03di2 — 0.361di 3 


0 

0 

0 


el sistema es compatible indeterminado. Para encontrar una de las infinitas soluciones 
tomemos la primera variable como parametro, x, y resolvamos el sistema en funcion de 
x. La solucion es, 


{dn = x , di 2 = 0.427a;, d i3 = —0.562a;} 

El valor de x se obtiene ahora imponiendo que el vector tenga norma unidad, con lo que 
resulta: 


a i = 


-0.817 

-0.349 

0.459 


y el primer componente es 


Zi = — 0.817Xi - 0.349X2 + 0 . 459 X 3 
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donde X 3 ,X 2 y X 3 son las variables en logaritmos. Por ejemplo, el valor de esta nueva 
variable, la primera componente principal, para la primera observacion (la primera accion) 
es 


zi = -0.817 x log(3.4) - 0.349 x log(89.7) + 0.459 x log(30.2) = -1.0049 
El primer componente principal puede aproximadamente escribirse 

Z 1 = -0.82Xi + 0.35(X S - X 2 ) + 0.11X 3 

y utilizando la definicion de las variables originales este componente puede escribirse 
Zi = — 0.821og(d/p) + 0.35 \og(p/d) + 0.11 \og(pN /b) 

es decir, 


Z\ = — 1.171og (d/p) + 0.11 \og(pN/b ) 


que indica que este primer componente depende basicamente de la variable X 1? la rentabilidad 
por dividendos. Llamando z i = log Z\ este primer componente puede escribirse tambien como 


Zl = 


p 


1.27 


d 1 - 16 



.09 


que es, aproximodamente, de nuevo la variable x\, el cociente entre el precio de la accion 
y los dividendos recibidos. Esta variable es la que explica mejor la variabilidad conjunta de 
las acciones. 


Ejemplo 5.2 La encuesta de presupuestos familiares en Espana (Tabla A. 3 ) presenta 
los gastos medios de las familias espanolas en nueve epigrafes: X x = alimentacion, X 2 = 
vestido y calzado, X 3 = vivienda, X 4 = m.obiliario domestico, X 5 = gastos sanitarios, X 6 = 
transportes, X 7 = ensenanza y cultura, X 3 = turismo y ocio, X 9 = otros gastos, para las 
51 provincias espanolas (Ceuta y Melilla aparecen unidas como una provincia). La matriz 
de covarianzas resume la variabilidad de estas 9 variables en los 51 elementos observados. 
Como las distribuciones de los gastos son muy asimetricas, las variables se ban expresado 
en logaritmos. El vector propio asociado al mayor valor propio, 0,348, define la siguiente 
variable: 


Zi = 0, 12^1 + 0, 18x 2 + 0, 30x 3 + 0, 31^4 + 0, 46x 5 + 0, 34x 6 
+0, 50^7 + 0, 31xs + 0, 31xg 

Se observa que z\ es una sum, a ponderada de todos los gastos con muy or peso en los gastos 
en ensenanza y cultura (X 7 ) y gastos sanitarios (x 3 ). El menor peso lo tiene el gasto en 
alimentacion (x\). 

Si calculamos las coordenadas z 3 para las provincias espanolas y las ordenamos por esta 
nueva variable las provincias quedan practicamente ordenadas por su renta. La primera 
componente principal tiene pues en este caso una explicacion inmediata: redescubre la renta 
de cada provincia. 
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5.3.2 Calculo del segundo componente 

Vamos a obtener el mejor piano de proyeccion de las variables X. Lo calcularemos estable- 
ciendo como funcion objetivo que la suma de las varianzas de z x = Xa x y z 2 = Xa 2 sea 
maxima, donde a x y a 2 son los vectores que definen el piano. La funcion objetivo sera: 

(j) — a 1 Sa x -f- a 2 Sa 2 — A x (a^a x — 1) — A 2 (a 2 a 2 — 1) (5.7) 

que incorpora las restricciones de que las direcciones deben de tener modulo unitario (a'a, j = 

1, i — 1, 2. Derivando e igualando a cero: 

= 2Sa x - 2A x a x = 0 

( 73-1 

77 — = 2Sa 2 — 2A 2 a 2 = 0 
o a 2 

La solucion de este sistema es: 

Sa x = A x a x , (5.8) 

Sa 2 = A 2 a 2 (5-9) 

que indica que a x y a 2 deben ser vectores propios de S. Tomando los vectores propios de 
norma uno y sustituyendo en (5.7), se obtiene que, en el maximo, la funcion objetivo es 

<f> = A x + A 2 (5.10) 

es claro que A x y A 2 deben ser los dos autovalores mayores de la matriz S y a x y a 2 sus 
correspondientes autovectores. Observemos que la covarianza entre z x y z 2 , dada por a) S 
a 2 es cero ya que a' x a 2 = 0, y las variables z x y z 2 est-aran incorreladas. Puede demostrarse 
(vease el ejercicio 5.7) que si en lugar de maximizar la suma de varianzas, que es la traza de la 
matriz de covarianzas de la proyeccion, se maximiza la varianza generalizada (el determinante 
de la matriz de covarianzas) se obtiene el mismo resultado. 

Ejemplo 5.3 El segundo componente principal para las variables de gastos de la EPF definidas 
en el ejemplo 5. 1 es el asociado al segundo valor propio mayor que es 0, 032. El vector propio 
asociado a este valor propio define la nueva variable: 

Z2 = 0, 05x x + 0, 16x 2 — 0, 17x3 + 0, 07x4 — 0, 21xs + 0, 29x6 — 

0, 40x7 — 0, 17x§ + 0, 78x 9 = 

(0, 05x x + 0, 16x 2 + 0, 07x4 + 0, 29x6 + 0, 78xg) — 

(0, 17x3 + 0, 21x5 + 0, 40x7 + 0, 17x 8 ) 

Esta variable puede verse como la diferencia entre dos medias ponderadas de los gastos. La 
primera da sobre todo peso a otros gastos (xg), y transporte (xq). En la variable otros gastos 
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estan incluidas las transferencias fuera de la provincia a miembros de la f am, ilia mayores de 
14 anos que no residan en ella, podemos conjeturar esta variable separa las provincias que 
reciben transferencias de las que las envian. Es tambien significativo que estas provincias 
tienen altos gastos en transporte. La primera media ponderada puede considerarse un indi- 
cador de como esta provincia envia recursos a otras. La segunda media da mayor peso a las 
variables ensenanza y cultura (xr) y gastos sanitarios (x§). 

Este segundo components va a separar a provincias que envian recursos a otras (alto 
valor de x 9 ) y que tienen tambien altos gastos de transporte, respecto a las que transfieren 
relativamente poco y tienen altos gastos de educacion y sanidad. Las provincias con valores 
mas altos de este componente son Zam.ora, Leon, Lugo, Toledo, Huesca, Lerida, Segovia, 
Soria y Palencia. Estas provincias no han tenido tradicionalmente universidad, por lo que 
tienen que enviar los estudiantes fuera y tienen bajos costes de educacion. Por el contrario, 
las provincias con valores bajos de este componente z 2 incluyen a Madrid y Barcelona, cen- 
tros receptores netos de estudiantes de otras provincias, asi como a Salamanca, Zaragoza y 
Tenerife. La Tabla 5.1 presenta la ordenacion de las provincias segun el primer y segundo 
componente. La figura ?? represents cada provincia en el piano de las dos primeras compo- 
nentes principales. Cada punto aparece representado por sus coordenadas respecto a los ejes 
defmidos por las componentes principales y puede interpretarse como la proyeccion de los 
puntos, que estan en un espacio de dimension 9, tantos como variables, sobre el piano que 
mejor mantiene sus distancias relativas, que es el defmido por las dos primeras componentes. 


Proyeccion de los datos de la EPF sobre el piano defmido por las dos primeras componentes 

principales 


5.3.3 Generalizacion 

Puede demostrarse analogamente que el espacio de dimension r que mejor representa a los 
puntos viene defmido por los vectores propios asociados a los r mayores autovalores de S. 
Estas direcciones se denominan direcciones principales de los datos y a las nuevas variables 
por ellas definidas componentes principales. En general, la matriz X ( y por tanto la S) t-iene 
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Comp. 1 

Comp. 2 

Navarra 

Zamora 

Madrid 

Leon 

Barcelona 

Lugo 

Lerida 

Toledo 

Vizcaya 

Huesca 

Gerona 

Murcia 

Baleares 

Navarra 

Tarragona 

Lerida 

Guipuzcoa 

Segovia 

Las Palmas 

Soria 

Ciudad Real 

Malaga 

Cuenca 

Salamanca 

Avila 

Cadiz 

Teruel 

Madrid 

Castellon 

Badajoz 

Orense 

Jaen 

Zamora 

Ceuta y Melilla 

Badajoz 

Zaragoza 

Ceuta y Melilla 

Huelva 

Salamanca 

Tenerife 

Jaen 

Barcelona 


Tabla 5.1: Ordenacion de las provincias de la EPF, segun los dos primeros componentes 


rango p. existiendo entonces tant-as componentes principales como variables que se obtendran 
calculando los valores propios o rai'ces caracterfsticas, A i} . . . , X p , de la matriz de varianzas 
y covarianzas de las variables, S, mediante: 


|S — AI| =0 

y sus vectores asociados son: 

(S - A,I)a. = 0. 


(5.11) 

(5.12) 


Los terminos A,; son reales, al ser la matriz S simetrica, y positivos, ya que S es definida 
posit-iva. Por ser S simetrica si A j y A/, son dos rai'ces dist-int-as sus vectores asociados son 
ortogonales. En efecto: 

a^S dij = (a h Sa.j) = a S a 

a^Saj = a ? A/ja/j 

y si A j ^ A h, SL'h a j — a 'j a h = 0 y son ortogonales. 

Si S fuese semidefinida posit-iva de rango p <p. lo que ocurrin'a si p — p variables fuesen 
combinacion lineal de las demas, habrfa solament-e p rai'ces caracterfsticas posit-ivas y el rest-o 
serfan ceros. 
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Llamando Z a la matriz cuyas columnas son los valores de los p componentes en los n 
individuos, estas nuevas variables estan relacionadas con las originales mediante: 

Z = XA 

donde A' A = I. Calcular los componentes principales equivale a aplicar una transformacion 
ortogonal A a las variables X (ejes originales) para obt-ener unas nuevas variables Z incorre- 
ladas entre si. Esta operacion puede interpretarse como elegir unos nuevos ejes coordenados, 
que coincidan con los ”ejes naturales” de los datos. 

Ejemplo 5.4 Los restantes valores propios de la mstriz de covarianzas de los datos de la 
EPF son 0.027, 0.0175, 0.0126, 0.0107, 0.010, 0.0059, y 0.00526. A partir del tercero son 
muy pequenos y de valor similar. El tercer componente principal es 

Z3 = 0, 12xi + 0, 05^2 + 0, 34x3 + 0, IIX4 — 0, 85^5 + 0, 04^6 — 

0, 30x7 + 0, 20x§ + 0, 003 x 9 = 

(0, 12xi + 0, 05x2 + 0, 34x3 + 0, IIX4 + 0, 04x6 + 0, 20x 8 ) — 

(0, 85x5 + 0, 3 OX 7 ) 

y puede de nuevo interpretarse como la diferencia entre dos medias ponderadas. La 
primera da sobre todo peso a las variables 3, vivienda, 8, turisms y ocio, 1, alimentscion y j 
, mobiliario domestico. La segunda a la 5, gastos sanitarios, y ala 7, ensenanza y cultura. 
Separa provincias con bajos costes en sanidad y altos en vivienda y ocio de las que tengan la 
estructura opuesta. La figura ?? represents las observaciones proyectadas sobre el piano de 
las componentes primera y tercera. Se observa que la tercera dimension es independiente de 
la primera (riqueza 0 rents) y separa provincias con altos gastos en sanidad, como Salamanca 
y Palencia, de otras de aquellas con gastos relativamente bajos en esta msgnitud y mas en 
vivienda y ocio. 


Representacion de los datos de la EPF em el piano defmido por loso componentes primero 

y tercero. 
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Ejemplo 5.5 La tabla 5.2 presenta la matriz de varianzas y covarianzas entre nueve indi- 
cadores economicos medidos en distintas empresas. 


Xl 

x 2 

x 3 

x 4 

x 5 

x 6 

x 7 

x 8 

x 9 

177 

179 

95 

96 

53 

32 

-7 

-4 

-3 


419 

245 

131 

181 

127 

-2 

1 

4 



302 

60 

109 

142 

4 

.4 

11 




158 

102 

42 

4 

3 

2 





137 

96 

4 

5 

6 






128 

2 

2 

8 







34 

31 

33 








39 

39 









48 


Tabla 5.2: Matriz de varianzas covarianzas de los nueve indicadores 


Las razees caracteristicas de esta matriz se presentan en la tabla 5.3. 


Componente 

1 

2 

3 

4 

5 

6 

7 

8 

9 

A, 

878,5 

196,1 

128,6 

103,4 

81,2 

37,8 

7,0 

5,7 

3,5 


Tabla 5.3: Autovalores de la matriz tabla 5.2 


La suma de los valores propios de la matriz es 1441, 8, practicamente igual, salvo por 
errores de redondeo, a la suma de las varianzas de las variables, que es 1442. Ya veremos 
que esta concordancia ocurre siempre. Los vectores propios de los tres primeros componentes 
se indican en la tabla 5-4 ■ Se observa que el primer componente principal es una media 
ponderada de las primeras seis variables. El segundo contrapone la primera, la segunda y la 
cuarta a la tercera y la sexta. El tercer componente contrapone las tres primeras al resto de 
las variables. 

Estos resultados son consistentes con la matriz de la tabla 5.2. El rasgo mas caracteristico 
de esta tabla es la distinta magnitud de las seis primeras variables respecto al resto. Esto 
lo recoge el primer componente principal. El segundo rasgo es la presencia de covarianzas 
negativas en las filas de las dos primeras variables y esto se recoge en el segundo componente. 
El tercero incorpora por un lado las tres ultimas variables y, por otro, contrapone las tres 
primeras variables f rente al resto. 


Componente 

X\ 

X2 

X 3 

X4 

x 5 

x 6 

x 7 

x s 

Xg 

1 

0.30 

0.66 

0.48 

0.26 

0.32 

0.27 

0.00 

0.00 

0.01 

2 

-0.48 

-0.15 

0.58 

-0.49 

-0.04 

0.37 

0.06 

0.04 

0.08 

3 

-0.41 

-0.18 

-0.23 

0.45 

0.49 

0.27 

0.26 

0.28 

0.29 


Tabla 5.4: Vectores propios de la matriz tabla 5.2 
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5.4 PROPIEDADES DE LOS COMPONENTES 

Los componentes principales como nuevas variables tienen las propiedades siguientes: 

1. Conservan la variabilidad inicial: la suma de las varianzas de los componentes es igual 
a la suma de las varianzas de las variables originales, y la varianza generalizada de los 
componentes es igual a la original. 

Comprobemos el primer punto. Como V ar ( Zh ) = A/, y la. suma de las rai'ces carac- 
terfsticas es la traza de la matriz: 

tr( S) = V ar (xi) + ... + Var (. x p ) = Ai + . . . + X p 

por tanto Y^=i Ear(xj) = A* = Y7i=i Var{zi). Las nuevas variables z % tienen con- 
juntamente la misma variabilidad que las variables originales, la suma de varianzas es 
la misma, pero su distribution es muy distinta en los dos conjuntos. 

Para comprobar que los componentes principales tambien conservan la Varianza gen- 
eralizada , valor del determinante de varianzas y covarianzas de las variables, como el 
determinante es el producto de las rai'ces caracterist-icas, tenemos que, llamando S-, a 
la matriz de covarianzas de los componentes, que es diagonal con terminos A,; : 

| Sa;| = Xi. . .X p = Tl p i=l Var(zi) = | S~ | . 

2. La proportion de variabilidad explicada por un componente es el cociente entre su 
varianza, el valor propio asociado al vector propio que lo define, y la suma de los 
valores propios de la matriz. 

En efecto, como la varianza del componente h es A/,, el valor propio que define el 
componente, y la suma de todas las varianzas de las variables originales es Ef=i A*, igual 
como acabamos de ver a la suma de las varianzas de los componentes, la proportion 
de variabilidad total explicada por el componente h es A^/ E A*. 

3. Las covarianzas entre cada componente principal y las variables X vienen dadas por 
el producto de las coordenadas del vector propio que define el componente por el valor 
propio: 


( ’ () i' ( Zj . x^, . . . Xp) Aja, ; (A * * * , A^u^p) 

donde a* es el vector de coeficient-es de la componente z^. 

Para justificar este result-ado, vamos a calcular la matriz p x p de covarianzas entre los 
componentes y las variables originales. Esta matriz es: 

Cov(z,x ) = 1/nZ'X 

y su primera fila proporciona las covarianzas entre la primera componente y las p 
variables originales. Como Z = XA, sustituyendo 


Cov{z,x) = 1/nA'X'X = A'S = DA', 
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donde A contiene en columnas los vectores propios de S y D es la matriz diagonal 
de los valores propios. En consecuencia, la covarianza entre, por ejemplo, el primer 
componente principal y las p variables vendra dada por la primera fila de A'S, es decir 
a', S o tambien A | a', , donde a', es el vector de coeficientes de la primera componente 
principal. 


4. Las correlation entre un componente principal y una variable X es proportional al 
coeficiente de esa variable en la definition del componente, y el coeficiente de propor- 
cionalidad es el cociente entre la desviacion ti'pica del componente y la desviacion tfpica 
de la variable. 

Para comprobarlo: 


Corr(zi ; x,j) 


Cov(ziXj) 

/ Var{z i )Var{xj] 



5. Las r componentes principals (r < p) proporcionan la prediction lineal optima con r 
variables del conjunto de variables X. 

Esta afirmacion puede expresarse de dos formas. La primera demost-rando que la mejor 
prediction lineal con r variables de las variables originales se obtiene ut-ilizando las r 
primeras componentes principals. La segunda demost-rando que la mejor aproximacion 
de la matriz de dat-os que puede construirse con una matriz de rango r se obtiene 
construyendo esta matriz con los valores de los r primeros componentes principales. 
La demostracibn de est-as propiedades puede verse en el apendice 5.1. 

6. Si est-andarizamos los componentes principales, dividiendo cada uno por su desviacion 
ti'pica, se obtiene la estandarizacion multivariante de los dat-os originales. 


Est-andarizando los componentes Z por sus desviaciones tfpicas, se obtienen las nuevas 
variables 

Y c = ZD -1/2 = XAD~ 1/2 

donde D -1 / 2 es la matriz que contienen las inversas de las desviaciones tfpicas de las com- 
ponent-es. Hemos vist-o en el capftulo anterior que la estandarizacion multivariante de una 
matriz de variables X de media cero viene dada por se define como: 

Y s = XAD~ 1/2 A' 

y ambas variables estan incorreladas y t-ienen matriz de covarianzas identidad. Se diferencian 
en que unas pueden ser una rotation de las otras, lo que es indiferente al tener t-odas las 
mismas varianzas. Por tant-o,la estandarizacion multivariante puede interpretarse como : 

(1) obtener los componentes principales; 

(2) estandarizarlos para que t-engan t-odos la misma varianza. 

Esta relation se presenta graficamente en la figura 5.2. La transformation mediant-e 
componentes principales conduce a variables incorreladas pero con distint-a varianza, puede 
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interpretarse como rotar los ejes de la elipse que definen los puntos para que coincidan 
con sus ejes naturales. La estandarizacion multivariane produce variables incorreladas con 
varianza unidad, lo que supone buscar los ejes naturales y luego estandarizarlos. En conse- 
cuencia, si estandarizamos los componentes se obtiene las variables estandarizadas de forma 
multivariante. 



Figura 5.2: Represent-acion grafica de la relacion entre componentes principales y es- 

tandarizacion multivariante. 


5.5 ANALISIS NORMADO O CON CORRELACIONES 

Los componentes principales se obt-ienen maximizando la varianza de la proyeccion. En 
terminos de las variables originales esto supone maximizar: 

p p p 

M = a* sj + 2 diCijSij 

i= 1 i = 1 j=i-\-l 

con la restriccion a' a = 1 . Si alguna de las variables, por ejemplo la primera, tiene una vari- 
anza A- mayor que las demas, la manera de aumentar M es hacer tan grande como podamos 
la coordenada a\ asociada a esta variable. En el li'mite si una variable tiene una varianza mu- 
cho mayor que las demas el primer component-e principal coincidira muy aproximadamente 
con esta variable. 

Cuando las variables t-ienen unidades distintas esta propiedad no es conveniente: si dis- 
minuimos la escala de medida de una variable cualquiera, de manera que aumenten en 


(5.13) 



152 


CAPITULO 5. COMPONENTES PRJNCIPALES 


magnitud sus valores numericos (pasamos por ejemplo de medir en k m . a medir en metros), 
el peso de esa variable en el analisis aumentara, ya que en (5.13): 

(1) su varianza sera mayor y aumentara su coeficiente en el componente, af, ya que con- 
tribuye mas a aumentar M; 

(2) sus covarianzas con todas las variables aumentaran, con el consiguiente efecto de in- 
crement ar a,; . 

En resumen, cuando las escalas de medida de las variables son muy distintas, la maxi- 
mization de (5.13) dependera decisivamente de est-as escalas de medida y las variables con 
valores mas grandes tendran mas peso en el analisis. Si queremos evitar est-e problema, 
conviene estandarizar las variables antes de calcular los componentes, de manera que las 
magnitudes de los valores numericos de las variables X sean similares. 

La estandarizacion resuelve otro posible problema. Si las variabilidades de las X son 
muy distintas, las variables con mayor varianza van a influir mas en la determination de la 
primera componente. Este problema se evita al estandarizar las variables, ya que entonces 
las varianzas son la unidad, y las covarianzas son los coeficientes de correlation. La ecuacion 
a maximizar se transforma en: 


p p 

M' = 1 + 2 V V w (5.14) 

1=1 j=i + 1 

siendo r i:j el coeficiente de correlation lineal entre las variables ij . En consecuencia la solution 
depende de la correlaciones y no de las varianzas. 

Los componentes principals normados se obtiene calculando los vectores y valores propios 
de la matriz R, de coeficientes de correlation. Llamando Af a las rai'ces caracterfsticas de 
esa matriz, que suponemos no singular, se verifica que: 

p 

y] Af = traza(R) = p 

i= 1 

Las propiedades de los componentes ext-rai'dos de R son: 

1. La proportion de variation explicada por A f sera: 


V 

2. Las correlaciones entre cada componente z 3 y las variables X originales vienen dados 
directamente por a'j^/Xj siendo z j = Xa ; . 

Estas propiedades son consecuencia inmediata de los resultados de la section 5.4. 
Cuando las variables X originales estan en distintas unidades conviene aplicar el analisis 
de la matriz de correlaciones o analisis normado. Cuando las variables tienen las mismas 


(5.16) 


(5.15) 
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unidades, ambas alternativas son posibles. Si las diferencias entre las varianzas de las vari- 
ables son informat-ivas y queremos tenerlas en cuenta en el analisis no debemos estandarizar 
las variables: por ejemplo, supongamos dos indices con la misma base pero uno fluctua mu- 
cho y el otro es casi constante. Este hecho es informativo, y para t.enerlo en cuenta en el 
analisis, no se deben estandarizar las variables, de manera que el indice de mayor variabilidad 
tenga mas peso. Por el contrario, si las diferencias de variabilidad no son relevantes podemos 
eliminarlas con el analisis normado. En caso de duda, conviene realizar ambos analisis, y 
seleccionar aquel que conduzca a conclusiones mas informativas. 


Ejemplo 5.6 La matriz de correlation de los nueve indicadores economicos del ejemplo5-4 
es 


R 


1 .66 .41 
1 .69 

1 


57 

.34 

.21 

-.09 

-.05 

-.03 

51 

.76 

.55 

-.01 

.01 

.03 

28 

.54 

.72 

.04 

.00 

.09 

1 

.69 

.30 

.05 

.03 

.02 


1 

.73 

.06 

.07 

.07 



1 

.03 

.03 

.10 




1 

.85 

.82 





1 

.90 


1 


Los valores propios son: 


A* 

3.70 

2.72 

1.06 

.70 

.30 

.23 

.16 

.09 

.03 

n opios 

asociados a 

los tres 

primeros 

valores 

propios son: 

A 

Xl 

X2 


x± 

x 5 

x 6 

x 7 

X8 

Xq 

3.7 

.34 

.46 

.41 

.36 

.46 

.40 

.06 

.06 

.08 

2.72 

-.11 

-.07 

-.03 ■ 

-.04 

-.02 

-.01 

.56 

.58 

.57 

1.06 

-.54 

-.05 

.38 ■ 

-.52 

.07 

.53 

-.04 

-.07 

.00 


Tabla 5.5: Vectores propios de la matriz de correlaciones 


Si compararrws estos resultados con los del ejemplo 5.j vem.os que el primer vector propio 
cambia apreciablem.ente. Con la m.atriz de varianzas las variables con mbs peso en el compo- 
nente eran las que tenian una mayor varianza: la 2, luego la 3 y finalmente las 1,4,5 y 6 con 
un peso parecido. Estos pesos siguen estrecham.ente la relation relativa entre las varianzas 
de las variables. Sin embargo, al utilizar la matriz de correlaciones este efecto desaparece, 
y el peso de las variables esta mas relacionado con las correlaciones. La proportion de vari- 
abilidad explicada por el primer componente cambia mucho: de 878,5/1441,8 = 60,9% a 
3.7/9 = 41% 

El segundo componente cambia completamente: ahora esta practicamente asociado a las 
tres ultimas variables. La proportion de variabilidad que explica ha aumentado considerable- 
mente, del 196/1441, 8 = 13, 6% a 2.72/9 = 30% . El tercer vector propio es tambien distinto 
en ambas matrices. 
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Ejemplo 5.7 Consideremos los datos de INVEST publicaciones cientificas en los paises de 
la OCDE. Los datos tienen magnitudes muy distintas ( unos bancos de datos tienen machos 
mas trabajos que otros). Si deseamos conservar esta propiedad, que esta asociada a que en 
algunos campos cientificos se publica macho mas que en otros, haremos el analisis sobre 
la matriz de covarianzas. Si no queremos dar mas peso a unos campos que a otros, es 
conveniente realizar el analisis normado o sobre la matriz de correlacion. Los resultados en 
este ultimo caso se indican en la tabla 5.6 


Comp. 


P h 

Kura 

1 

7.630 

0.954 

0.954 

2 

0.207 

0.026 

0.980 

3 

0.121 

0.015 

0.995 

4 

0.019 

0.002 

0.997 

5 

0.017 

0.002 

0.999 

6 

0.004 

0.001 

1.000 

7 

0.001 

0.000 

1.000 

8 

0.000 

0.000 

1.000 


Tabla 5.6: Variabilidad explicada por los componentes principales 


Se observa que el primer components principal explica una proporcion may alia de la vari- 
abilidad, el 95,4%. Con los tres primeros componentes se explica el 99,5% de la variabilidad. 
Adernas, despues del tercer vector propio la variabilidad explicada disminuye claramente, 
(vease la tabla 5.6 y la figura 5.3 )lo que indica que solo debemos preocuparnos de los tres 
primeros componentes ya que los siguientes tienen poca capacidad explicativa. En la tabla 
5.1 se indican los valores de los componentes para estos tres vectores propios. 



Comp. 1 

Comp. 2 

Comp. 3 

INTER. A 

0.358 

-0.173 

0.36 

INTER.F 

0.360 

-0.098 

0.08 

AGRIC. 

0.355 

-0.366 

-0.10 

BIOLO. 

0.346 

-0.359 

-0.69 

MEDIC. 

0.361 

-0.070 

0.15 

QUIMI. 

0.334 

0.786 

-0.41 

INGEN. 

0.354 

0.268 

0.40 

FISICA 

0.361 

0.054 

0.17 


Tabla 5.7: Vectores propios de los tres primeros componentes 


Ejemplo 5.8 Para interpreter los componentes consideramos sus coordenadas en las vari- 
ables. Estas se indican en la tabla 5.7 y en la figura 5-4- Se observa que el primer componente 
es un factor de tarnano, ya que es una media ponderada de todas las variables con mayor 
peso de los bancos interdisciplinarios y del banco medico. El segundo componente es un fac- 
tor de forma y contrapone la investigacion en Qmmica e Ingenierm frente a la realizada en 
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Figura 5.3: Grafico para la selection del mimero de componentes. 

Agricult.ura y Biologm. El tercero contrapone ingenieria, fisica y el banco interA con respecto 
a Biologm y Quimica. 

5.6 INTERPRETACION DE LOS COMPONENTES 

Componentes de tamano y forma 

Cuando existe una alt-a correlation positiva entre todas las variables, el primer componente 
principal tiene todas sus coordenadas del mismo signo y puede interpretarse como un prome- 
dio ponderado de todas las variables (vease el ejercicio 5.2). Se interpreta entonces como 
un factor global de ” tamano”. Los restantes componentes se interpretan como factores ”de 
forma” y ti'picamente tienen coordenadas positivas y negativas, que implica que contraponen 
unos grupos de variables frente a ot-ros. Estos factores de forma pueden frecuentemente es- 
cribirse como medias ponderadas de dos grupos de variables con distinto signo y contraponen 
las variables de un signo a las del otro. Por ejemplo el segundo componente principal de 
los dat-os de la EPF del ejercicio 5.3 puede escribirse aproximadamente, despreciando los 
coeficiente pequenos (menores que 0,1): 


z 2 = (0, 05aq + 0, 16x2 + 0, 07x4 + 0, 29x 6 + 0, 78x 9 ) 
(0, 17x 3 + 0, 21x 5 + 0, 40x 7 + 0, 17x s ) ~ I 0 - Is 
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Figura 5.4: Representation de los pesos de las dos componentes. 


donde 


I 0 = 0, 16x2 + 0, 29x 6 + 0, 78x 9 

es un indicador de los gastos de transporte y transferencias a otras provincias y 

Is = 0, 17x 3 + 0, 21x 5 + 0, 40x7 + 0; 17x 8 

es un indicador de gastos en servicios (educacion y sanidad). Ademas, cuando las vari- 
ables van en logaritmos, los componentes suelen poder escribirse como ratios de promedios 
geometricos de las variables. Por ejemplo, supongamos que un componente tiene la expresion 

z\ = —0.5 log xi + 0.3 log x 2 + 0.2 log x 3 

este componente puede escribirse tambien como 

z\ = 0.3 log — + 0.2 log — 

X\ X\ 

que indica que es un promedio de estos dos ratios (vease el ejemplo 5.1). 

La interpretation de los componentes se simplifica suponiendo que los coeficientes pequenos 
son cero y redondeando los coeficientes grandes para expresar el componente como cocientes, 
diferencias o sumas entre variables. Estas aproximaciones son razonables si modifican poco 
la estructura del componente y mejoran su interpretation. Una medida del cambio introduci- 
do al modificar un vector propio de a* a &ai es el cambio en la proportion de variabilidad 
explicada por el componente. Si el valor propio asociado a a* es A*, el componente explica el 
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A i/'Yh Aj de la variabilidad. Si ahora modificamos el vector a a t M. la varianza de la proyec- 
cion de los datos sobre este componente es \m = a' M S = (Xaj M )'(Xa iM )/n, la varianza 
del componente, y la proportion de variabilidad explicada sera \m/ -V El cambio relativo 
sera (A* — Xm)/K, ya que siempre A* > A m, y si este cambio es pequeno, est.a justificada la 
modification si favorece la interpretation. 


Ejemplo 5.9 Varrws a calcular el cambio relativo que experiments el segundo componente 
principal de los datos de la EPF si despreciamos los coeficientes mas pequenos, la varianza del 
segundo componente modificado es 0,0319. La varianza del componente original es 0,0320, 
por lo que el cambio de explicacion por tomar el coeficiente simplificado es solo de ( 0, 0320- 
0, 0319) /0, 0320=1 / 320=0, 0031 . 


Ejemplo 5.10 Supongam.os 6 observaciones x \, . . . ,x 6 en dos dimensiones, cada obser- 
vacidn corresponde a un rect.angulo y las variables son longitud de la base y altura del rec- 
tangulo. Graficamente las observaciones son, 



que corresponden a la matriz de datos, 


2 2 


1.5 

0.5 

0.7 

0.5 

0.5 

1.5 

0.5 

0.7 

0.7 

0.7 


aplicamos logaritmos a estos datos para facilitar la interpretacion de las component.es, 


l°gP0 = 


S = 


0.301 

0.301 

0.176 

-0.301 

-0.155 

-0.301 

-0.301 

0.176 

-0.301 

-0.155 

_ -0.155 

-0.155 

1 

6.39 1.41 
1.41 6.39 

1 

o 

T— 1 

1 


Los autovalores y autovectores de la descomposicion espectral de est.a matriz son, 


Ai = 0.78 A 2 = 0,0498 



" 0.707 " 


0.707 

a\ = 

0.707 

®2 — 

-0.707 
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las dos primeras componentes son 


Z i 


^2 


Xai = 0.707 log(X!) + 0.707 log(X 2 ) = 0.707 log^A^) 


Xa 2 = 0.707 log^) - 0.707 log(X 2 ) = 0.707 log(^) = 


0.426 
-0.088 
-0.322 
-0.088 
-0.322 
^ -0.219 

0 

0.337 

0.103 

-0.337 

-0.103 

0 


Si ordenamos los rectangulos segun el valor de la primera y segunda componente obten- 
emos, 



La primera ordenacion coincide con la inducida por el volumen de los rectangulos, es 
una transformacion creciente del producto de la base por la altura, y el primer componente 
describe el tamano. El segundo componente relaciona la base con la altura y ordena las 
observaciones en funcion de su forma. 


5.6.1 Seleccion del numero de componentes 

Se han sugerido distintas reglas para seleccionar el numero de componentes a mantener: 

(1) Realizar un grafico de A* frente a i. Comenzar seleccionando componentes hasta que los 
restantes t-engan aproximadamente el mismo valor de A, : . La idea es buscar un ”codo” 
en el grafico, es decir, un punto a partir del cual los valores propios son aproximada- 
mente iguales. El criterio es quedarse con un numero de componentes que excluya los 
asociados a valores pequenos y aproximadamente del mismo tamano. 

(2) Seleccionar componentes hasta cubrir una proporcion determinada de varianza, como el 
80% o el 90%. Esta regia es arbitraria y debe aplicarse con cierto cuidado. Por ejemplo, 
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es posible que un unico componente de ’’tamano” recoja el 90% de la variabilidad y 
sin embargo pueden existir otros componentes que sean muy adecuados para explicar 
la ” forma” de las variables. 

(3) Desechar aquellos componentes asociados a valores propios inferiores a una cota, que 
suele fijarse como la varianza media, A,,/p. En particular, cuando se trabaja con 
la matriz de correlacion, el valor medio de los componentes es 1, y esta regia lleva a 
seleccionar los valores propios mayores que la unidad. De nuevo esta regia es arbitraria: 
una variable que sea independient-e del resto suele llevarse un componente principal 
(vease ejercicio 5.8) y puede tener un valor propio mayor que la unidad. Sin embargo, 
si esta incorrelada con el resto puede ser una variable poco relevante para el analisis, 
y no aportar mucho a la comprension del fenomeno global. 

5.6.2 Represent acion grafica 

La interpretation de los componentes principales se favore representando las proyecciones de 
las observaciones sobre un espacio de dimension dos, definido por parejas de los componentes 
principales mas importantes. Este punto se ha ilustrado en los ejemplos anteriores, donde se 
ha indicado que la proyeccion de cualquier observation sobre un componente es directamente 
el valor del componente para esa observation. La representation habitual es tomar dos 
ejes ortogonales que representen los dos componentes considerados, y situar cada punto 
sobre ese piano por sus coordendas con relation a estos ejes, que son los valores de los dos 
componentes para esa observation. Por ejemplo, en el piano de los dos primeros componentes, 
las coordenadas del punto x, son zu = a) x, y z-y = a^x, . 

La interpretation se favorece representando en el mismo piano ademas de las observa- 
ciones las variables originales. Est.o puede hacerse utilizando como coordenadas su coeficiente 
de correlation con cada uno de los ejes. El vector de correlaciones entre el primer compo- 
nente y las variables originales viene dado por A| / 2 ajD, donde D es una matriz diagonal 
cuyos terminos son las inversas de las desviaciones trpicas de cada variable. La matriz de 
correlaciones Re entre los p componentes y las p variables tendra como filas los terminos 
A^a'D y puede escribirse 


Re = A 1/2 AD 

donde A es la matriz de vectores propios, A 1 / 2 es la matriz diagonal con terminos y En 
el analisis normado como las variables se estandarizan a varianza unidad las correlaciones 
sera simplemente A 1,/2 A. 

Una representation equivalente es el biplot- que presentamos en la section siguiente. Tiene 
la ventaja de representar al mismo t-iempo las variables y las observaciones en un mismo 
graft co. 

Conviene investigar si transformando las variables se obtiene una interpretation mas sim- 
ple. Como regia general, cuando al tomar logaritmos las variables X tienen una distribution 
aproximadamente simetrica, conviene realizar el analisis de componentes principales sobre 
los logaritmos de las variables. 
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Es importante recordar que las covarianzas (o correlaciones) miden unicamente las rela- 
ciones lineales entre las variables. Cuando entre ellas existan relaciones fuertes no lineales el 
analisis de componentes principales puede dar una informacion muy parcial de las variables. 

Ejemplo 5.11 La figura 5.5 presenta la proyeccion de los datos de INVEST, los paises de 
la OCDE, sobre el piano formado por los dos primeros componentes principales extraidos de 
la matriz de correlacion, que se estudiaron en el ejemplo 5.6. Se observa que el primer eje 
ordena a los paises por su cantidad de investigacion, mientras que el segundo tiene en cuenta 
sus caracteristicas: separa a Japon, con gran enfasis en investigacion tecnologica, del Reino 
Unido, que tiene mas enfasis en la investigacion biomedica 


Figura 5.5: Proyeccion de las observaciones en las dos primeras componentes principales. 

Como indicamos en el Capitulo la observacion de EEUU es atipica y existe una marcada 
asimetria en las distribuciones de las variables. Vamos a presentar los datos excluyendo 
a EEUU y con una transformacion logaritmica de las variables para reducir la asimetria. 
La figura 5.6 muestra el nuevo diagrama de cajas multiple. Como la varianza de las nuevas 
variables transformadas es similar, el analisis de componentes principales se realizara direc- 
tamente sobre la matriz de varianzas covarianzas. Los resultados obtenidos figuran en las 
tablas 5.8 y5.9 

Los tres primeros componentes explican el 97% de la variabilidad y tienen la siguiente 
interpretacion. El primero es una media ponderada de todos los bancos con mayo peso del 
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Figura 5.6: Diagrama de caias de los logaritmos de las variables de INVEST una vez elimi- 
nado EEUU. 



A/i 

Ph 

Eli Ph 

Comp. 1 

14.98 

0.90 

0.90 

Comp. 2 

0.83 

0.05 

0.94 

Comp. 3 

0.50 

0.03 

0.97 

Comp. 4 

0.21 

0.01 

0.99 

Comp. 5 

0.10 

0.01 

0.99 

Comp. 6 

0.08 

0.00 

1.00 

Comp. 7 

0.02 

0.00 

1.00 

Comp. 8 

0.02 

0.00 

1.00 


Tabla 5.8: Variabilidad explicada por los componentes principals 
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banco quimico. El segundo, contrapone la investigation en Quimica frente a la general del 
banco INTER. F y a la de ingenieria y fisica. El tercero contrapone el banco INTER. F y 
Quimica al resto. 



Comp. 1 

Comp. 2 

Comp. 3 

INTER. A 

0,31 

0,05 

-0,40 

INTER.F 

0,37 

0,63 

0,63 

AGRIC. 

0,30 

0,07 

-0,14 

BIOLO. 

0,27 

-0,06 

-0,30 

MEDIC. 

0,32 

0,01 

-0,25 

QUIMI. 

0,56 

1 

_p 

At 

0 

0,41 

INGEN. 

0,28 

0,25 

-0,18 

FISICA 

0,32 

0,21 

-0,26 


Tabla 5.9: Pesos de las tres primeras componentes principales 

Los paises proyectados en estos tres componentes se presentan en la figura 5. 7. Se ha 
ahadido tambien la proyeccion sobre el cuarto componente, que separa completamente a UK 
de Japon. 

5.6.3 Datos atfpicos 

Antes de obtener los componentes principales conviene asegurarse de que no exist-en datos 
atfpicos, ya que, como hemos vist-o en el capftulo anterior, los atfpicos pueden distorsionar 
totalmente la matriz de covarianzas. 

Para ilustrar su efecto sobre los componentes, supongamos el caso mas simple en que un 
error de medida en una variable introduce un valor atfpico grande en la primera variable. Su 
efecto sera aumentar mucho la varianza de esta variable y disminuir las covarianzas con las 
rest-antes, con lo que, si hacemos el atfpico muy grande, la matriz S sera, aproximadamente: 

' a\ ... O' ' 

0 S22 

donde 0'= (0, 0, ..., 0). Esta matriz t-iene un vector propio (1,0,... , 0) unido al valor propio 
o\ y si cr\ es muy grande est-e sera el primer componente principal. Por tant-o, un valor 
atfpico suficientement-e grande dist-orsiona t-odos los componentes que podemos obtener de 
la matriz afectada (vease el ejemplo 5.9). 

El result-ado anterior sugiere que las componentes principales podrfan utilizarse para 
detectar dat-os atfpicos multi variantes, ya que un valor muy ext-remo se llevara un componente 
principal y aparecera como extremo sobre esta componente. Desgraciadament-e, aunque los 
componentes pueden identificar atfpicos aislados, no hay garantfa de que funcionen cuando 
existeu grupos de atfpicos, debido al problema de enmascaramiento. Por est-a razon conviene 
utilizar para detect-arlos el met-odo present-ado en el capftulo anterior, basado en proyecciones 
sobre las direcciones ext-remas de kurtosis, que al ser capaz de identificar todos los posibles 
atfpicos permite calcular una la matriz de covarianzas libre de dist-orsiones graves. 
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-5 0 5 

Comp. 1 



- 2-1012 
Comp. 2 



-5 0 5 

Comp. 1 



- 2-1012 
Comp. 2 



-2.0 -1.0 0.0 0.5 1.0 

Comp. 3 


Figura 5.7: Representation de las observaciones de INVEST en losplanos definidos por las 
cuatro primeras componentes. 

5.6.4 Distribucion de los componentes 

Los componentes principales pueden verse como un conjunto nuevo de variables y estudiar 
su distribution individual y conjunta. Por construction estaran incorrelados, pero pueden 
exitir fuertes relaciones no lineales entre ellos. 

Ejemplo 5.12 Vam.os a calcular los componentes principales de la m.atriz de correlacion 
de las 21 medidas fisicas, MEDIFIS. Aunque todas las variables van en centlmstros, los 
tamanos de las variables son muy distintos, lo que aconseja utilizar la matriz de correlacion. 
La proporcion de varianza que explica cada vector propio se indica en la tabla 5.10 

Para decidir cuantos componentes tomar utilizaremos la figura 5.8 que indica que a partir 
del tercer components hay una caida en la capacidad predictiva. Los tres primeros compo- 
nentes explican conjuntamente el 93.5% de la variabilidad. 
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A h 

5.56 

0.62 

0.39 

0.17 

0.14 

0.10 

0.05 

P h % 

78.96 

8.87 

5.65 

2.48 

1.98 

1.37 

0.68 


Tabla 5.10: Variabilidad explicada por las componentes 


Figura 5.8: Grafico para seleccionar el numero de componentes. 
Los tres primeros vectores propios son: 



est 

pes 

pie 

Ibr 

aes 

dcr 

drt 

Comp. 1 

.41 

.39 

.40 

.39 

.38 

.29 

.37 

Comp. 2 

-.16 

.04 

-.20 

-.30 

.11 

.89 

-.15 

Comp. 3 

.04 

-.29 

.13 

-.15 

-.57 

.20 

.71 


El primer componente es una media de todas las medidas fisicas, y por tanto una m.edida del 
tamano del cuerpo, siendo la variable con menor peso el diametro del craneo. La segunda 
variable es de forma, y esta dominada por el diametro del craneo. Observemos que esta 
variable esta poco correlada con el resto y, por lo tanto, arrastra ella sola un componente 
principal, ya que no puede explicarse como combinacion de otras. El tercer componente 
principal diferencia longitud f rente a anchura: da mayor peso a la longitud de la pierna (drt) 
y lo contrapone al peso y a la anchura de la espalda. 

La figura 5.9 presenta un grafico de las observaciones sobre el piano de los dos primeros 
componentes principales. Las coordenadas son las puntuaciones estandarizadas z* = X*ai, i = 
1, 2, donde X* es la matriz de variables estandarizadas (de media cero y varianza uno). En 
este grafico cada punto se indica con un 1, cuando la observacion corresponde a un varon 
y un 0 cuando es mujer. Puede verse que la primera componente de ” tamano ” separa casi 
perfectamente los hombres de las mujeres. El segundo componente no parece reflejar ningun 
efecto del sexo. Observemos que la primera componente es capaz, por si misma, de explicar 
casi el 80% de variabilidad. Dado que el diametro del craneo esta poco correlado con el resto 
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de las variables, siendo casi en exclusiva responsable de una dimension, vamos a repetir el 
analisis eliminando esta variable. 


Figura 5.9: Proyeccion de las observaciones en las dos primeras componentes principales. 

Los resultados de eliminar la variable diametro del craneo del analisis se presentan en la 
tabla siguiente. Se incluyen los dos primeros valores y vectores propios que explican por si 
mismos el 92% de la variabilidad. 


A h 

P h % 

est 

pes 

pie 

Ibr 

aes 

drt 

5.1 

85 

43 

41 

42 

41 

.39 

.38 

4 

7 

.08 

-.32 

.17 

-.04 

-.60 

.71 

Corr(ziXi) 

.97 

.93 

.95 

.93 

.88 

.86 

Corr(z 2 Xi) 

.05 

-.20 

.11 

-.030 

-.38 

45 


El primer componente es de nuevo una media ponderada que indica el tamano de las personas, 
dando el m.ayor peso a la estatura de la persona. El segundo es de forma, ya que contrapone 
la longitud de la pierna a la anchura de la espalda y tiene peso positivo en las longitudes (del 
pie y estatura), y negativo en el peso. La proyeccion de los datos sobre el piano definido por 
los dos componentes se presenta en la figura 5.10. Se observa que el primer componente de 
’’tamano” separa como antes los hombres de las mujeres, y que el segundo componente al ser 
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ortogonal al tamano no parece depender del sexo. Este componente separa para ambos sexos 
pesonas con constitucion delgada de gruesa. 

La figura 5.11 presenta de forma grafica las correlaciones entre el primer y segundo com- 
ponente y cada variable, calculadas como ^ J Xhdhj ■ Se observa que el primer componente esta 
correlado con la altura y las restantes longitudes, mientras que el segundo esta especialmente 
relacionado con la longitud de la pierna y la anchura de la espalda. 


Figura 5.10: Proyeccion de las observaciones en las dos primeras componentes principales. 


Ejemplo 5.13 Vamos a analizar la base de datos de MUNDODES (tabla A. 6 del Anexo). 
Esta matriz de datos esta constituida por 91 paises en los que se ban observado 9 variables: 
X 1 : ratio de natalidad, X 2 : ratio de mortalidad, X 3 : mortalidad infant.il, X 4 : esperanza de 
vida en hombres X 5 : esperanza de vida de mujeres y X 6 : PNB per capita. 

La representacion grafica de las variables dos a dos, present.ada en el capit.ulo anterior, 
muestra relaciones claramente no lineales. Aplicando transformaciones logaritmicas a las 
variables mejoramos la linealidad en estas relaciones dos a dos. 

Como las variables est.an medidas en distintas unidades se debe realizar un analisis de 
componentes principales normado (basado en la matriz de correlaciones) , los resultados se 
present.an en la figura 5.12. 

La figura 5.13 presenta el grafico en forma de codo para seleccionar el numero de compo- 
nentes. El primer valor propio es 4-7278, y explica el 78,8% de la variabilidad. El segundo 
es 0.7261, y explica el 12%. Hay un valor propio de 0,002 que corresponde a una variable 
que es pract.icamente constante. Los vectores propios se present.an a continuacion. 
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Figura 5.11: Correlacion de las variables con las component.es principals . 


variable PCI PC2 PCS PC4 PC5 PC6 
Xx -O .454 0.034 -0.130 0.159 0.378 0.780 
X 2 O. 4 I 6 0.196 0.513 0.683 0.233 0.067 
X 3 0.341 -0.680 -0.524 0.307 0.225 -0.031 
X 4 O. 44 O -0.052 0.222 -0.632 0.578 0.145 
X h -0.452 0. 085 -0. 029 0.114 0. 639 -0. 605 
X e -0.326 -0.699 0.628 -0.039 -0.100 0.002 
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0.796 


03 

> 


0.923 


0.967 


0.988 


0.997 


Comp. 1 Comp. 2 Comp. 3 Comp. 4 Comp. 5 Comp. 6 


Figura 5.12: Proporcion de variabilidad explicada por cada componente para los datos de 
MUNDODES. 


Figura 5.13: 

El primer componente explica el 79% de la variabilidad, el segundo corresponde a un 
valor propio inferior a 1, pero lo incluiremos para interpretarlo. La prim, era componente se 
puede interpretar como una medida de desarrollo de un pais, dado que las variables con peso 
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positivo son las esperanzas de vida de hombres y mujeres y la renta, mientras que las de peso 
negativo son la mortalidad infant.il y las t-asas de nat.alidad y mortalidad, que son bajas en 
los paises mas desarrollados. El segundo components esta asociado a la mortalidad infant.il 
y a la renta, con lo que results de dificil interpretacion ya que mide una dimension que esta 
incorrelada con el primer termino de desarrollo. Para interpret.arla, lafigura 5. If m.uestra los 
paises en el piano de los dos component.es. Se observa que existe una fuerte relacion no lineal 
entre arnbos y aunque los componentes est.an incorrelados no son claramente independientes. 
El primer componente podemos suponer que ordena a los paises por desarrollo y el segundo 
tiene en cuant.a la mortalidad infant.il y tiene una relacion no lineal con la rents. 


Figura 5.14: 


Representation de los dos primeros componentes para los datos de Mundodes 


En los diagram.as de dispersion vimos que relaciones entre las variables eran no lineales, 
por lo que vamos a repetir el analisis para las variables en logaritmos. Los valores propios de 
la matriz de correlaciones de las variables en logaritmos no cambian mucho, pero los vectores 
propios si lo hacen. Son ahora: 

PCI PC2 PCS PC4 PC5 PC6 
0.403 0.435 -0.376 - 0.436 - 0.562 0.033 
0.307-0.831 0.011 -0.457 -0.077 -0.020 
0.433 0.267-0.023 -0.331 0.793 0.051 
-O.44I 0.147 0.224 -0.531 0.019 -0.672 
-0.446 0.071 0.213 -O.454 -0.012 0.738 
-0.403 -0.149 -0.873 -0.057 0.223 -0.008 

El primero sigue siendo una medida de desarrollo pero ahora el segundo esta sobre todo 
ligado a la tasa de mortalidad. Separa paises con alts tasa de mortalidad de los de baja. 
Vemos que el ultimo vector propio tambien tiene una interesante interpretacion. Nos dice 
que la diferencia en logaritmos entre las esperanzas de vida de hombres y mujeres es practi- 
camente constante en todos los paises, ya que el valor propio que corresponde a este vector 
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propio es muy pequeno (0,015). Los pesos asociados a cada una de las variables se presentan 
en la figura 5.15 


Comp. 1 


EspMuj EspHom Mortlnf PNB TasaNat. TasaMort 

Comp. 2 


TasaMort TasaNat. Mortlnf PNB EspHom EspMuj 


Figura 5.15: Pesos de las variables en los dos primeros componentes para los datos de 
MUNDODES 

La figura 5.16 presenta la representacion de los paises en los dos prim.eros componentes. 
El primero es una medida del desarrollo y el segundo depende principalmente de la tasa de 
mortalidad, y separa paises que tienen alto (o bajo) valor aparente de desarrollo de otros 
que tienen una mortalidad mucho mayor de la que corresponded de acuerdo a su nivel 
de desarrollo. Ambas dimensiones estan incorreladas pero no son independientes, como se 
observa en la figura. Sin embargo, el grado de dependencia entre las variables es menor que 
con las variables sin transformer. 


Figura 5.16: Grafico de los datos de Mundodes sobre los dos primeros componentes princi- 
pales de los datos en logaritmos. 
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5.7 Generalizaciones 

La idea de componentes principales puede extenderse para buscar represent-aciones no lin- 
eales de los datos que expliquen su estructura. Este enfoque es especialmente interesante 
si sospechamos que los datos pueden disponerse siguiendo una determinada superficie en 
el espacio. Como hemos visto los vectores propios ligados a valores propios proximos a 
cero sonmuy importantes porque revelan relaciones de poca variabilidad de los datos. Por 
ejemplo, supongamos para simplificar una variable bidimensional donde, aproximadamente, 
f(x i) + f(x 2 ) = c. Entonces, si hacemos componentes principales de las cuatro variables 
(x'i, x 2 , f(x 1 ), f(x 2 ), ) encontraremos un valor propio muy proximo a cero con un vector pro- 
pio de la forma (0,0, 1,1). 

Generalizando esta idea, si exist-e una relation cualquiera no lineal entre las variables, 
como esta relation podemos aproximarla por una relation polinomica 

fix 1 , ..., Xp ) ^ ^ Q'iXi A ^ bijXiXj A y ^ CijkXiX jXk H - ... 

si incluimos nuevas variables adicionales como xf, ...,Xp o productos de variables x \ x 2 etc 
y extraemos los componentes principales de la matriz de correlaciones entre todas estas 
variables, si los punt-os tienen una relation no lineal esta se det-ect-ara ligada a un valor propio 
proximo a cero. Este enfoque se conoce a veces como componentes principales generalizados, 
y el lector int-eresado puede encontrar ejemplos de su aplicacion en Gnandesikan (1977). 
El inconvenient-e de introducir nuevas variables, transformaciones de las iniciales, es que 
inmediatamente aumenta mucho la dimension del problema con lo que si la muestra no es muy 
grande podemos t-ener una matriz de correlaciones singular. Por otro lado la interpretation 
de los result-ados de est-e analisis, salvo en casos muy especiales, no suele ser facil, con lo que 
esta herramienta no suele ayuda mucho en para la exploration de datos multivariantes. 


5.8 Lect uras complement arias 

Todos los t-ext-os generales de analisis multivariante que se indican en las referencias estudian 
componentes principales. Johnson y Wichern (1998) y Rechner (1998) son buenas presenta- 
ciones con similar hlosoffa a la ut-ilizada en el libro mientras que Flury (1997) presenta un 
enfoque distinto al aquf expuest-o. Componentes principales es un caso particular de los 
metodos de proyeccion introducidos en la section 4.2.3 que se conocen como Projection Pur- 
suit (Busqueda de la Proyeccion). Vease Krzanowski y Marriot (1994) para mas det-alles. 
Un excelent-e tratado sobre componentes principales y sus ext-ensiones es el libro de Jackson 
(1991), que cont-iene numerosas referencias. La idea de componentes principales puede ex- 
tenderse al caso no lineal, y Gnanadesikan (1997) es una buena referenda. Los componentes 
principales puede aplicarse para investigar si varios grupos de dat-os t-ienen componentes 
comunes. Est-e aspect-o ha sido investigado por Krzanowski (1979) y Flury (1984, 1986). 
Cuadras, C.M. (1991) y Aluja, T. y Morineau, A. (1999) son buenas referencias en espanol. 

EJERCICIOS 
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Ejercicio 5.1 Dada la matriz de covarianzas 


S 


1 + d 1 1 

1 1 + d 1 

1 1 1 + d 


encontrar los componentes principales. Calcular la proporcion de variabilidad explicada por 
cada uno y las correlaciones entre los componentes y las variables. Interpretar los compo- 
nentes en funcion del tamano de d. 


Ejercicio 5.2 Dada la m.atriz de correlacion: 

1 d d d 
q _ d 1 d d 
d d 1 d 
d d d 1 


encontrar la primera componente principal. (Nota, utilizar que Y — [d.1.1' + (1 — d)I] para 
encontrar los componentes y discutir su interpretacion) . 


Ejercicio 5.3 Supongamos que Z,X 1: ...,X p tienen una distribucion normal (p + 1) dimen- 
sional. Sean Y 1 , ..., Y p los componentes principales de X 1 , ..., X p . Demostrar que el coeficiente 
de correlacion multiple de las regresiones: 


es identico. 


Z = ^2 a i X i 

z = 


Ejercicio 5.4 Demostrar que si S = 


donde A y B son no singulares de rango 


A 0 
0 B 

r A V r B los vectores propios de S son de la form, a («i,0) y (0 ,u 2 ), donde u\ es un vector 
propio de A y u 2 un vector propio de B . 


Ejercicio 5.5 Indicar las implicaciones del resultado del ejercicio 5.f para calcular compo- 
nentes principales. 


Ejercicio 5.6 Demostrar que si S 
los de B. 


A 0 
0 B 


los valores propios de S son los de A mas 


Ejercicio 5.7 Demostrar que el espacio que maximiza la varianza generalizada de la proyec- 
cion es el definido por z\ — Xai y z 2 = Xa 2 donde z\ y z 2 son los dos primeros componentes 
principales. 
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Ejercicio 5.8 Demostrar que si una variable x\ esta incorrelada con el resto de manera que 

I" s 2 0' 1 

la matriz S tiene la forma S = 1 „ donde 0 y O' son vectores de ceros, la matriz S 

U 02 

tiene un componente principal asociado unicamente a la primera variable, es decir, el vector 
(1, 0...0) es un vector propio de S. 


Ejercicio 5.9 Demostrar que la direccion donde la variabilidad de la proyeccion es minima 
es la dada por el vector propio ligado al menor valor propio de la matriz de covarianzas. 

Ejercicio 5.10 Demostrar la siguiente acotacion para formas cuadraticas : A m i n w'w < 
w'Bw < A max w'w, donde A m j n y A max son el menor y el mayor valor propio de la matriz 
B. (Sugerencia, maximizar la forma cuadratica como se hizo para obtener el primer compo- 
nente principal) 

p distancias entre puntos y 

Vamos a demostrar que maximizar las distancias al cuadrado entre los puntos proyectados 
equivale a maximizar la varianza de la variable definida por las proyecciones de los puntos. 
Sea Zi = a', x, la proyeccion de una observacion sobre la direccion ai, donde suponemos a', a | = 
1. La variable z % t-endra media cero ya que si las x tienen media cero Y^= l z% = XuLi a i x * = 
a'j Ym=i x ' = 0- La suma de las distancias al cuadrado entre los puntos proyectados es 


d p = Y1 _ ^) 2 - 

i=l h=i-\- 1 

Para interpretar este sumatorio observemos que cada termino z t aparece al cuadrado 
n — 1 , veces ya que cada punto se compara con los otros n — 1 , y que habra tantos dobles 
product-os como parejas de puntos, es decir (”) = n(n — l)/2. Por tant-o: 


D P = (n - !) z i - 2 ZiZh = n ^2 z i~ B 

i = 1 i = 1 h=i + 1 

siendo B : 


que puede escribirse, 


B = z i + 2 ZiZh 

i=l i = 1 h=i + 1 


— Z\(Z\ + Z2 + ■ ■ ■ Z n ) + Z2^Zi + . . . + Z n ) + . . . Z n (z,\ + . . . + Z n ) 

n n 

= y~i zi y^ zi = 

i = 1 i = 1 


B 
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Por tanto, maximizar las distancias entre los puntos equivale a maximizar: 

A = n J2 z i 

que es el criterio de maximizar la varianza de la nueva variable, obtenida anteriormente. 

Algunos autores han propuesta minimizar 

^ ^ ' w ij (dij ~ dij ) 

donde es una funcion de ponderacion. El problema asf plant.eado no tiene una solu- 
tion simple y debe resolverse mediante un algoritmo iterativo no lineal. Vease por ejemplo 
Krzanowski (1990, cap2). 

APENDICE 5.2. LOS COMPONENTES COMO PRE- 
DICTORES OPTIMOS 

Demostraremos que los componentes principales son predictores optimos de las X. Comence- 
mos demostrando que si queremos aproximar la matriz X, de rango p. por otra matriz X r 
de rango r < p, la aproximacion optima es X A r A( = Z r A' r , donde la matriz A,, es p x r y 
sus columnas son los vectores propios asociados a los r mayores valores propios de la matriz 
S. 

El problema de aproximar la matriz X puede establecerse asf: Consideremos un espacio 
de dimension r definido por una base U r ortonormal, donde U r es p x r y U' r U r = I. Se desea 
encontrar una aproximacion de la matriz X utilizando una base de ese espacio, es decir, 
queremos prever cada una de las filas (x 1; ..., x n ) de la matriz, donde x* es el vector p x 1 de 
observations en el elemento i de la muestra, mediante los vectores U r . La prediction de la 
variable x* sera la proyeccion ortogonal sobre el espacio generado por estos vectores que es 

Xi = U r U (.Xj 

y queremos determinar los vectores U r tal que el error cuadrat-ico de aproximacion total para 
todas las filas de la matriz, dado por 

p n n 

e = Y1 _ ^b) 2 = - Xi)'(xi - Xi) (5.17) 

j = 1 i= 1 i= 1 

sea mfnimo. El error puede escribirse 

n n 

E = ^2 x * /x * - ^2 x/U r U(.Xj (5.18) 

i= 1 i= 1 

y minimizar el error equivale a maximizar el segundo termino. Utilizando que un es- 
calar es igual a su traza, Yh=i Xi'U r U' r x, : = 7r()T" = | x/U r U(.Xi) = ^(U r U' r Xjx/) = 
tr( U r U(. Xjx/). Introduciendo que S = Y^i=i x * x // n y sustituyendo en tr(U r U( )T)” =1 x,;x/), 
tenemos que esta expresion es nfr(U r U(,S) = ntr(U(,SU r ). Por tanto: 

n 

^x/U r U; Xi = nfr(U'SU r ) 

2=1 


(5.19) 
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Segun esta expresion, minimizar el error (5.18) implica encontrar un conjunto de vectores 
U r = [ui,...,u r ] que maximicen la suma de los elementos diagonales de Uj.SU,., es decir, 
E^u'Su,. Si r = 1, este es el problema que se ha resuelt-o para encontrar el primer 
componente. Si r = 2, como el nuevo vector debe ser ortogonal al primero, obt-enemos el 
segundo componente, y as! sucesivamente. Por tanto, U r = A r , y la aproximacion optima a 
la matriz X vendra dada por X r = XA r A(. Ademas, como en (5.18) el primer termino es 

n n n 

y^x/x = tr( x/x) =^>(x/x) = 

i= 1 i= 1 i= 1 

n p 

tr YXxxj') = ntr(S) —n^^Xi 

i= 1 i=l 

y el segundo es, segun (5.19), igual a n Y^i=\ \ ■ tenemos que el error de la aproximacion 
sera n YJi=r+i 

Es int-eresante senalar que esta aproximacion a una matriz es la que proporciona la 
descomposicion en valores singulares, es decir la mejor aproximacion a la matriz X por otra 
matriz X r de rango r < p e s 

x r = u r Dy 2 v; = i]y /2 u t v' 

i = 1 

donde U r es la matriz de los r mayores vectores propios de XX 7 , D)/ 2 cont-iene los r mayores 
valores propios y V,, contiene los vectores propios de X'X'. En efecto, segun hemos visto en 
la seccion 5.7 X r = Z r A' r , que es el result-ado anterior. 

El problema puede enfocarse desde otro punto de vista. Busquemos unas variables 
[z 1 ,...,z r ] que sean combinaciones lineales de las originales y que t-engan la propiedad de 
preverlas de manera optima. Por ejemplo, si r — 1, buscamos un vector ai de manera que 
la nueva variable: 


zi = Xai 

permita prever con mi'nimo error los valores observados para el conjunto de variables que 
forman las columnas de la matriz X. Por ejemplo, el valor previst.o para la variable Xj en 
el individuo i. Xij, conocido el valor de la variable Z\ para ese individuo, z u sera: 


Xij bjZn 

y el error de prediccion sera e,, ? = x XJ — x^. Vamos a demostrarlo para simplificar en el caso 
r = 1. Calcularemos el vector ai para que minimice est-os errores de prediccion. Es conocido 
que el coeficient-e de regresion bj viene dado por: 


bj 


E n 

i = 1 x ij z li 




2 
1 i 


(5.20) 
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como = 1/na'X'Xa = a'Sa, la varianza de z i puede crecer indefinidamente si no 

imponemos ninguna restriction. Exigiremos que sea unitaria, es decir que: 


a'Sa = 1 = (1 /n) 4 (5.21) 

Entonces: 

bj = 1/n XjjZu = l/nX)Xa! = V'ai (5.22) 

donde V ? es el vector fila j de la matriz S de varianzas y covarianzas. Impongamos la 
condition mfnim o cuadrat-ica para obtener ai: 


^ n i n 

~ Y 4 = Minima =~ Y ( x v - 


n 


i= 1 


i = 1 


y el segundo miembro pnede escribirse: 


^ it ^ it ^ it 

- Y 4 + -< V / V>1 S 4 - 2V' a- Y XijZu 

i= 1 i=l 


utilizando ahora (5.21) y (5.22), se obtiene 


\Y 4 = lY 4 - aiV.V'aL 

i=l i=l 

Aplicando este mismo razonamiento a las otras variables X y sumando para todas ellas: 


1 n p n p p 

M ^ E E 4 = - E E 4 - E < v* 

*=i i=i *=1 i=i i=i 

como el primer miembro es la t.raza de S que es fija, maximizar M equivale a minimizar: 


p 

a) VjV' a ! = a'^S'a) = aiS 2 ai (5.23) 

i=i 

ya que S es simetrica. Por lo tanto, el problema es minimizar la expresion (9.14) con la 
restriction (5.21): 


L = a' 1 S 2 ai — A(aiSai — 1) 
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— = 2S 2 a— A2Sa = 0 
da 


S 2 a = ASa 


de donde incluimos que a debe de ser un vector propio de S y A un valor propio, ya que si: 


Sa = Aa 


multiplicando por S 


S 2 a = ASa 

Con lo que finaliza la demostracion. Es interesante resaltar que este result-ado es simple- 
ment-e la implication estadi'stica de la propiedad que tienen los vect-ores y rafces caracterist-icos 
de ” general - ” la matriz de base. 
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Capftulo 6 

ESCALADO MULTIDIMENSIONAL 

6.1 INTRODUCTION 

Las t-ecnicas de escalado multidimensional son una generalizacion de la idea de componentes 
principales cuando en lugar de disponer de una matriz de observaciones por variables, como 
en componentes principales, se dispone de una matriz, D, cuadrada n x n de distancias 
o disimilaridades entre los n elementos de un conjunto. Por ejemplo, esta matriz puede 
representar las similitudes o distancias entre n productos fabricados por una empresa, las 
distancias percibidas entre n candidates politicos, las diferencias entre n preguntas de un 
cuestionario o las distancias o similitudes entre n sect-ores industriales. Est-as distancias 
pueden haberse obt-enido a partir de ciert-as variables, o pueden ser el resultado de una 
estimacion direct-a, por ejemplo preguntando a un grupo de jueces por sus opiniones sobre 
las similaridades entre los elementos considerados. 

El objet-ivo que se pret-ende es representar esta matriz mediant-e un conjunto de variables 
ort-ogonales ip , . . . , y p , donde p < n , de manera que las distancias euclideas entre las coor- 
denadas de los elementos respecto a estas variables sean iguales (o lo mas proximas posibles) 
a las distancias o disimilaridades de la matriz original. Es decir, a partir de la matriz D 
se pret-ende obt-ener una matriz X, de dimensiones n x p, que pueda interpretarse como la 
matriz de p variables en los n individuos, y donde la dist-ancia euch'dea entre los element-os 
reproduzca, aproximadament-e, la matriz de distancias D initial. Cuando p > 2, las vari- 
ables pueden ordenarse en importancia y suelen hacerse representaciones graficas en dos y 
tres dimensiones para entender la estructura exist-ent-e. 

Este plant-eamient-o present-a dos interrogantes: /Es siempre posible encontrar est-as vari- 
ables? ^Como construirlas? En general no es posible encontrar p variables que reproduzcan 
exactamente las distancias iniciales, sin embargo es frecuente encontrar variables que repro- 
duzcan aproximadament-e las distancia iniciales. Por ot-ro lado, si la matriz de distancias se 
ha generado calculando las distancias euclideas entre las observaciones definidas por ciert-as 
variables, recupereraremos las componentes principales de est-as variables. 

El escalado multidimensional compart-e con componentes principales el objet-ivo de de- 
scribir e interpretar los dat-os. Si exist-en muchos elementos, la matriz de similaridades sera 
muy grande y la representation por unas pocas variables de los element-os nos permitira 
entender su estructura: que element-os t-ienen propiedades similares, si aparecen grupos entre 
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los elementos, si hay element-os at-fpicos, etc. Ademas, si podemos interpretar las variables 
aumentara nuestro conocimiento del problema, al ent-ender como se han generado los dat-os. 
Por ejemplo, supongamos que se realiza una encuesta para determinar que similitudes en- 
cuentran los consumidores entre n product-os o servicios, y que la information se resume en 
una matriz cuadrada de similitudes entre los productos. Supongamos que descubrimos que 
estas similitudes pueden generarse por dos variables. Entonces, es razonable suponer que los 
consumidores han est-imado la similitud entre los productos utilizando est-as dos variables. 

El escalado multidimensional representa un enfoque complement ario a componentes prin- 
cipales en el sent-ido siguiente. Componentes principales considera la matriz p x p de correla- 
tions (o covarianzas) entre variables, e investiga su estructura. El escalado multidimensional 
considera la matriz n x n de correlations (o covarianzas) entre individuos, e investiga su 
estructura. Ambos enfoques estan clarament-e relacionados, y exist-en t-ecnicas graficas, como 
el biplot que estudiaremos en est-e capi't-ulo, que aprovechan esta dualidad para representar 
conjuntamente las variables y los individuos en un mismo grafico. 

El escalado multidimensional (Multidimensional Scaling) tiene sus orfgenes en los est-u- 
dios de psicologfa experimental, en los anos 50, para descubrir la similaridad entre estfmulos 
aplicados a distint-os individuos. Su desarrollo actual es debido a las investigations de Torg- 
erson, Shepard, Kruskal y Gower, entre ot-ros, y se han aplicado, preferentemente, en las 
ciencias sociales. Los met-odos existent-es se dividen en metricos, cuando la matriz inicial es 
propiament-e de distancias, y no metricos, cuando la matriz es de similaridades. Los metodos 
metricos, tambien llamados coordenadas principales, utilizan las diferencias entre similitudes 
mientras que los no metricos parten de que si A es mas similar a B que a C, entonces A 
esta mas cerca de B que de C, pero las diferencias entre las similitudes AB y AC no tienen 
interpretation. 


6.2 ESCALADOS METRICOS: COORDENADAS PRIN- 
CIPALES 

6.2.1 Const ruccion de variables a partir de las distancias 

Vimos en el Capftulo 3 que dada una matriz X de individuos por variables obt-enemos 
variables con media cero mediant-e la operation: 

X = (I--ll')X = PX 

n 

A partir de esta matriz X, de variables con media cero y dimensions nxp, podemos construir 
dos tipos de matrices cuadradas y semidefinidas posit-ivas: la matriz de covarianzas, S, 
definida por X'X/n y la matriz de product-os cruzados, Q = XX', que vamos a ver que 
puede interpretarse como una matriz de similitud (covarianzas) entre los n element-os. En 
efect-o, los terminos de esta matriz, qij, contienen el product-o escalar por pares de element-os: 
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p 

Qij ^ ^ %is%js 
s= 1 


( 6 . 1 ) 


donde hemos llamado x' a la fila i de la matriz X. Por la expresion del producto escalar, 
= x,; Xj | cos 0 t] , si los dos elementos tienen coordenadas similares, cos 6 ij — 1 y 
sera grande. Por el contrario, si los dos elementos son muy distintos, cos 0 i;i — 0 y q l3 sera 
pequeno. En est-e sentido podemos interpretar la matriz XX' como la matriz de similitud 
entre elementos. 

Las distancias entre las observaciones se deducen inmediatamente de esta matriz de simil- 
itud. La distancia euch'dea al cuadrado entre dos elementos es: 


p p p p 

d% = J2( Xis - x p} 2 = J2 x is + Yl x % ~ 2 XigX p ( 6 - 2 ) 

S= 1 S= 1 S=1 S=1 

que puede calcularse en funcion de los terminos de la matriz Q, por la expresion 


dij qu (fjj 2q l;j . (6.3) 

Por tanto, dada la matriz X podemos construir la matriz de similitud Q = XX' y, a 
partir de ella, la matriz D de distancias al cuadrado entre elementos con ayuda de (6.3). 
Llamando diag( Q) al vector que contiene los terminos diagonales de la matriz Q, y 1 al 
vector de unos, la matriz D viene dada por 

D =diag{ Q)l/ + ldiag(Q)' — 2Q 

El problema que vamos a abordar es el inverso: reconstruir la matriz X a partir de una 
matriz de distancias al cuadrado, D, con elementos dfj. Para ello, obtendremos primero la 
matriz Q, y a continuacion la X. 

Comencemos estudiando como obt-ener la matriz Q dada la matriz D. En primer lugar, 
observemos que no hay perdida de generalidad en suponer que las variables tienen media 
cero. Esto es consecuencia de que las distancias entre dos puntos, d'f ;j no varfan si expresamos 
las variables en desviaciones a la media, ya que 

p p 

d 2 ij = y^(x ls - Xj S ) 2 = - x s ) - (x js - x s )] 2 . (6.4) 

S=1 S=1 

Dado que estamos suponiendo que la unica informacion existente son las distancias entre 
elementos, para resolver esta indeterminacion vamos a buscar una matriz X con variables de 
media cero. En consecuencia, como X'l = 0 tambien Q1 = 0, es decir, la suma de todos los 
elementos de una fila de la matriz de similitudes, Q, (y de una columna ya que la matriz es 
simetrica) debe de ser cero. Para imponer est-as restricciones, sumemos en (6.3) por filas: 
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d l = qii + nq L = 1 + nq L ( 6 - 5 ) 

2=1 2=1 

donde t = Y^i=i Qa = traza (Q), y hemos utilizado que la condition Q1 = 0 implica 
Y^i= i Qij — 0. Sumando (6.3) por columnas 

n 

'^2d 2 ij =t + nq ii ( 6 . 6 ) 

3 = 1 

y sumando ahora (6.5) por filas de nuevo 


J2J2 d l = 2nt - ( 6 - 7 ) 

i=i j = i 

Sustituyendo en (6.3) q ]3 obtenida en (6.5) y qa en (6.6), tenemos que 





t 

n 


2 qij j 


( 6 . 8 ) 


y llamando d \ = ^Y^j=i^ij Y = a ^ as me dias por filas y por columnas y 

utilizando (6.7), tenemos que 


d 2 j = d 2 + d 2 j - d 2 - 2 qi 3 . (6.9) 

donde d 2 es la media de todos los elementos de D, dada por 

< = ^EE4 

Finalment.e, de (6.9) result a que 

Qij = ~\ (d 2 ij ~ d 2 - d 2 j + d l 2 ) (6. 10) 

expresion que indica como construir la matriz de similitud Q a partir de la matriz D de 
distancias. 

Pasemos ahora al problema de obtener la matriz X dada la matriz Q. Suponiendo que 
la matriz de similitud es definida positiva de rango p. puede representarse por 


Q = VAV 7 
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donde V es n x p y contiene los vectores propios correspondientes a valores propios no nulos 
de Q, A es diagonal p x p y contiene los valores propios y V' es p x n. Escribiendo: 


Q = (VA 1/2 )(A 1/2 V') 


( 6 . 11 ) 


y tomando 


Y = VA 1/2 

hemos obtenido una matriz n x p con p variables incorreladas que reproducen la metrica 
inicial. Observemos que si partimos de unas variables X y calculamos a partir de est-as vari- 
ables la matriz de distancias con (6.2) y luego aplicamos el metodo descrito a esta matriz de 
distancias no obtendremos las variables originales, X, sino sus componentes principales. Esto 
es inevitable, ya que existe una indeterminacidn en el problema cuando la unica informacion 
disponible son las distancias. En efecto, las distancias entre elementos no varfan si: 

(1) modificamos las medias de las variables 

(2) rotamos los puntos, es decir multiplicamos por una matriz ortogonal. 

Las distancias son funcion, por (6.3) de los terminos de la matriz de similitud, Q, y esta 
matriz es invariants ante rot.aciones de las variables. En efecto: 


Q = XX' = XAA'X' 

para cualquier matriz A ortogonal. La matriz Q solo contiene informacion sobre el espacio 
generado por las variables X. Cualquier rotation preserva las distancias. En consecuencia, 
cualquier rotation de las variables originales podria ser solution. 


6.3 Matrices compatibles con metricas euclfdeas 

Para poder calcular la rafz cuadrada de la matriz de similitud mediants (6.11) es necesario 
que los valores propios de la matriz Q, que construimos a partir de la matriz D original, sean 
no negat.ivos. Dada una matriz de distancias, D, diremos que esta matriz es compatible con 
una metrica euch'dea si la matriz de similitud que se obtiene a partir de ella 

Q = — -PDP 

^ 2 

es semidefinida positiva, donde P = I — ^11'. 

Vamos a demost.rar que esta condition es necesaria y suficiente, es decir, si D se ha 
construido a partir de una metrica euch'dea Q es no negativa y si Q es no negat-iva es posible 
encontrar una metrica euch'dea que reproduzca D. 

Demostracion 
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Demostraremos primero que si D se ha construido a partir de una metrica euch'dea Q 
es no negativa. Para ello comprobaremos en primer lugar que la matriz ^PDP t.iene los 
terminos (6.10). En efecto, los terminos de la matriz Q seran 

Q = --(I - — ll')D(I - -11') = --(D - — ll'D - -Dll' + — -ll'Dll') (6.12) 

^ 2 v n ’ V n ’ 2 v n n n 2 > \ > 

y llamando q l3 a los elementos de Q: 


Qij = ~\ ( 4 “ d l ~ d q + (]2 )- ( 6 - 13 ) 

Vamos a comprobar ahora que Q puede expresarse como XX' y por tanto es semidefini- 
da positiva. Como ahora, por hipotesis, los terminos d~ 3 son los cuadrados de distancias 
euch'deas, por (6.2), podemos escribir 


h = -XX4+X4 - -XX 


%is%js 


di = X4 + ^XX4 - ^xx 


■J'is-l'js 


3 S 


3 a 


^-,XX4 + iXX 


x 


3 s n 2 


3 a 


XXX 


I 3 s 


%is%js' 


Como 


1 

n 


X<X 


x is )x 


3 S 




(6.14) 


n 2 — y ^ X s (6.15) 

si j S 

se verifica que 

= yy x^x^ - yy Xpx pj - yy x p x pi + yy x\ = (x, - xy^ - x) (6. ie) 

V V P V 


y, por tanto, en general 
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Q = 


(Xl - x)' 
(x n - x)' 


[(xi - x) . . . (x n - x)] = XX , 


(6.17) 


que es siempre semidefinida positiva, de rango p. 

Vamos a demostrar ahora que si Q es semidefinida positiva podemos encontrar ciertas 
variables, yi, ■ ■ ■ ,y p , que reproduzcan las distancias observadas. Si Q es semidefinida positiva 
de rango p podemos expresarla como: 


p 

Q = Yl AiViV * 

donde A* son sus valores propios y v, los vectores propios. Llamando y, = a la 

estandarizacion de los vectores propios para que tengan varianza unidad, podemos escribir 


Q = X! y * y * ( 6 -i8) 

Las variables y,; representan la soluciou buscada: son un conjunto de p variables n- 
dimensionales incorreladas entre sf y tales que el cuadrado de la distancia euch'dea que 
inducen entre dos puntos es: 


s ij = ( z i ~ z j)'( z i ~ Zj) (6.19) 

donde z' = (y % \ . . . . , y tp ) es igual a las distancias originates observadas d~y Para demostrar- 
lo observemos que (6.18) implica que la matriz cuadrada de similitud Q puede tambien 
escribirse: 


Q = [yi, • 



donde estamos llamando y a las p variables n-dimensionales y z al vector de dimension p 
formado por los valores de estas variables en un individuo de la poblacion. Entonces: 


Qij z i z j 

La distancia al cuadrado entre dos puntos es, por (6.19) 


(6.20) 


dj ~ Z i Z i + Z j Z j 2 ZjZj 
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y, por (6.20) 


&ij lii A Qjj 

y como esta expresion es identica a (6.3), concluimos que: 


A 2 . = d 2 - 
U i 3 

y las nuevas variables reproducen exactamente las distancias euch'deas. 

6.3.1 Construccion de las Coordenadas Principales 

En general la matriz de distancias no sera compatible con una metrica euch'dea, pero es 
frecuente que la matriz de similitud obtenida a partir de ella tenga p valores propios positivos 
y mas grandes que el resto. Si los restantes n—p valores propios no nulos son mucho menores 
que los demas, podemos obtener una representacion aproximada de los puntos utilizando los 
p vectores propios asociados a valores propios positivos de la matriz de similitud. En est-e 
caso, las representaciones graficas conservaran solo aproximadamente la distancia entre los 
puntos. 

Supongamos que tenemos una matriz de distancias al cuadrado D. El procedimiento para 
obtener las coordenadas principales es: 

1. Construir la matriz Q = — |PDP, de productos cruzados. 

2. Obtener los valores propios de Q. Tomar los r mayores valores propios, donde r 
se escoge de manera que los restantes n — r valores propios sean proximos a cero. 
Observemos que como PI = 0, donde 1 es un vector de unos, la matriz Q tiene rango 
maximo n — 1 y siempre tendra el vector propio 1 unido al valor propio cero. 

3. Obtener las coordenadas de los puntos en las variables mediante v^V^Ai, donde A, es 
un valor propio de Q y v, : su vector propio asociado. Esto implica aproximar Q por 

q *(v r Ay 2 )(Ay 2 v' r ) 

y tomar como coordenadas de los puntos las variables 

Y r = VrA 1 / 2 . 

El metodo puede tambien aplicarse si la informacion de partida es directamente la matriz 
de similitud entre elementos. Diremos que se ha definido una funcion de similitud entre 
elementos si existe una funcion, . con las propiedades siguient.es: 

(1) Su = 1, 
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La similaridad es pues una funcion no negativa y simetrica. Si la matriz de part.ida, Q, 
es una matriz de similitud, entonces q„ = 1, q, , = qji y 0 < q t j < 1. La matriz de distancias 
asociadas sera, por (6.3), 

djj qu “t~ (Ijj — q t] 2(1 qij ) 

y puede comprobarse que y/2(l — q^) es una distancia y verifica la desigualdad triangular 
al corresponder a la distancia euch'dea para cierta configuration de puntos. 

Pueden obtenerse medidas de la precision conseguida mediante la aproximacion a partir 
de los p valores propios positivos de la matriz de similitud. Mardia ha propuesto el coeficiente: 


mi )P = 100 x 




Ejemplo 6.1 Las distancias en kilometros por carretera entre las ciudades espanolas sigu- 
ientes se encuentran en el cuadro adjunto, que llamaremas matriz M, donde las ciudades se 
han representado por las letras siguientes: M es Madrid, B Barcelona, V Valencia, S Sevilla, 


SS San Sebastian y LC La Coruna. 

M B V S 

SS 

LC 

M 

0 

627 

351 

550 

488 

603 

B 

627 

0 

361 

1043 

565 

1113 

V 

351 

361 

0 

567 

564 

954 

S 

550 

1043 

567 

0 

971 

950 

SS 

488 

565 

564 

971 

0 

713 

LC 

603 

1113 

954 

950 

713 

0 


Llamando D a esta matriz de distancias, la matriz de similitud es Q = - 5PDP y 
dividiendo cada termino por 10,000 se obtiene la matriz: 


0.1176 

-0.3908 

-0.1795 

0.3856 ■ 

-0.3180 

0.3852 

-0.3908 

3.0321 

1.2421 

-2.0839 

0.7338 

-2.5333 

-0.1795 

1.2421 

0.7553 

0.6095 ■ 

-0.3989 

-2.0285 

0.3856 

-2.0839 

0.6095 

3.6786 ■ 

-2.0610 

-0.5288 

-0.3180 

0.7338 

-0.3989 

-2.0610 

1.6277 

0.4165 

0.3852 

-2.5333 

-2.0285 

-0.5288 

0.4165 

4.2889 

que tiene 

los siguientes vectores propios, 

por columnas: 

-0.0960 

-0.0443 

-0.2569 

0.1496 

0.8566 

0.4082 

0.6270 

0.1400 

-O .4155 

-0.4717 ■ 

-0.1593 

0.4082 

0.2832 

-0.2584 

-0.0094 

0.7670 ■ 

-0.3130 

0.4082 

-0.2934 

-0.7216 

0.2205 

-0.4017 ■ 

-0.1285 

0.4082 

0.1241 

0.4417 

0.7812 

-0.0687 

0.0885 

0.4082 

-0.6449 

0.4426 

-0.3198 

0.0255 ■ 

-0.3443 

0.4082 


ligados a los siguientes valores propios: 

7.3792 5.9106 0.5947 -0.3945 0.0104 0.0000 

La matriz Q tiene dos valores propios grandes y los otros tres son may pequenos. Ademas 
tenemos el autovalor cero ligado al vector propio unidad. Esto sugiere que las distancias 
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pueden explicarse aproximadamente mediante dos variables. Tomando los dos vectores pro- 
pios asociados a los m.ayores valores propios, y estandarizandoles por la razz de su valor 
propio, resultan las siguientes coordenadas para cada ciudad 


Madrid 

-82.44 

-34.05 

Barcelona 

538.61 

107.67 

Valencia 

243.29 

-198.62 

Sevilla 

-252.04 

-554.79 

San Sebastian 

106.60 

339.55 

La Coruna 

-554.02 

340.25 


Si representamos estas coordenadas se obtiene la figura 6.1. Se observa que las coorde- 
nadas de las ciudades reproducen, con cierta aproximacion, el mapa de Espana. 


Figura 6.1: 


Representation de las coordenadas principales de seis ciudades espanolas 


El grado de bondad de esta representacion puede medirse por el coeftciente 

7.3792 + 5.9106 


m = 100 - 


= 93% 


7.3792 + 5.9106 + 0.5947 + 0.3945 + 0.0104 
y vernos que la representacion en dos dimensiones es muy adecuada para estos datos. 


Ejemplo 6.2 La matriz adjunta indica las similitudes encontradas por un grupo de consum- 
idores entre 7 productos de consume. 


A B C D E F G 
A 0759579 
R7046467 
675403456 
.D9630322 
775443054 
F7652504 
679762440 
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Aplicando la transformation a la m.atriz Q, los valores propios son 6.24, 3.37, 2-44, 
2.04, 1.25, -.06, 0. La representation de los productos correspondiente a los dos vectores 
principales se presenta en el figura 6.2. El grado de ajuste de esta representation es 

9.61 

m = 100 = 62.4% 

15.4 


0.6 


0.4 

0.2 


0 


- 0.2 


- 0.4 


- 0.6 


- 0.8 


* 


A 


* E 


*■ F 


* G 


+ D 


+ 


C 




B 


- 0.8 - 0.6 - 0.4 - 0.2 0 0.2 0.4 0.6 


Figura 6.2: Representation de los productos en el piano de las dos primeras coordenadas 
principales. 

Podemos concluir que los consumidores parecen utilizar dos dimensiones de valoracion 
que explican el 62-4% de la variabilidad, aunque existen otras dimensiones que se tienen en 
cuenta con menor peso. 

6.4 RELACION ENTRE COORDENADAS Y COM- 
PONENTES PRINCIPALES 

Cuando los datos originales forman una matriz X de individuos por variables y construimos 
la matriz D de distancias utilizando las distancias euch'deas entre los puntos a partir de dichas 
variables originales, las coordenadas principales obtenidas de la matriz D son equivalentes a 
los componentes principales de las variables. 

En efecto, con variables de media cero los componentes principales son los autovectores 
de ^X'X, mientras que, conro hemos visto en la seccion 6.3 (ecuacion 6.18), las coordenadas 
principales son los vectores^ propios estandarizados por \fX~ t de los autovalores de Q = XX'. 
Vamos a comprobar que X'X y XX' tienen el mismo rango y los mismos autovalores no 
nulos. Si a* es un autovector de X'X con autovalor A,;, 
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y multiplicando por X ambos miembros, 


XX'Xa* = X,Xa t (6.22) 

es decir, Xa, es un autovector de XX' con el mismo valor propio X t . Si n > p y la. matriz 
X'X tiene rango completo I endny p aril ovalores no nulos que sera los autovalores no nulos 
de XX'. Los vectores propios^de XX' son las proyecciones de la matriz X sobre la direccion 
de los vectores propios de X'X. 

Por otro lado, la matriz n x p que proporciona los valores de los p componentes principales 
en los n individuos es: 


Z = XA (6.23) 

donde Z es n x p y tiene por columnas J.os componentes principales y A es p x p y cont.iene 
en columnas los vectores propios de X'X. La matriz n x p de coordenadas principales viene 
dada por: 


y = [v!,. . . , Vp ; 


\/Ai 



= VL 


(6.24) 


donde Vj es nn vector propio de XX', la matriz V es n x p y contiene los p autovectores no 
nulos de X'X, y L es p x p y diagonal. Como V = X, es claro que, aparte de un factor de 
escala, ambos procedimientos conducen al mismo resultado. 

El analisis en coordenadas principales o escalado multidimensional, esta muy relacionado 
con componentes principales. En ambos casos tratamos^de reducir la dimensionalidad de 
los datos. En componentes partimos de la matriz X'X, obtenemos sus valores propios, 
y luego proyectamos las variables sobre estas direcciones para obtener los valores de los 
componentes, que son identicas a las coordenadas principales, que se obt.ienen directamente 
co mo vectores propios de la matriz XX'. Si la matriz de similaridades proviene de una 
metrica euch'dea ambos metodos conduciran al mismo resultado. Sin embargo, el concepto 
de coordenadas principales o escalado multidimensional puede aplicarse a una gama mas 
amplia de problemas que componentes, ya que las coordenadas principales pueden obtenerse 
siempre, aunque las distancias de partida no hayan sido exactamente generadas a partir de 
variables, como veremos en el caso de escalado no metrico. 


6.5 BIPLOTS 

Se conocen como biplots a las representaciones graficas conjuntas en un piano de las filas y 
de las columnas de una matriz. En el caso de una matriz de datos, el biplot es un grafico 
conjunto de las observaciones y las variables. La representation se obtiene a partir de la 
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descomposicion en valores singulares de una matriz (vease la seccion 2.4.2). Una matriz X 
de dimensiones n x p puede siempre descomponerse como 

x = vd 1/2 a' 


o graficamente 


Xu 

X\ p 


vn 

. V lp 

%nl 

Xnp 


Xnp 

Xnp 


1 

o 


a n • a ip 

o 

o 



1 

o 


cipi . dpp 


donde V es n x p y contiene en columnas los vectores propios asociados a valores propios 
no nulos de la matriz XX', D es una matriz diagonal de orden p que contiene las raices 
cuadradas de los valores propios no nulos de XX' o X'X y A' es una matriz ortogonal de 
orden p y contiene por filas los vectores propios de X'X. Las matrices de vectores propios 
verifican V'V = I, A' A = I. 

La descomposicion en valores singulares tiene gran importancia pract-ica porque, como se 
demuestro en el apendice 5.2, la mejor aproximacion de rango r < p a la matriz X se obt-iene 
tomando los r mayores valores propios de X'X y los correspondientes vectores propios de 
XX' y X'X y construyendo 


X= V r Dy 2 A' r 


donde V r es n x r y contiene las primeras r columnas de V correspondientes a los r mayores 
valores propios de XX', D)' 2 es diagonal de orden r y contiene estos r valores propios y A' r 
es r x p y contiene las r primeras filas de A' que corresponden a los r vectores propios de 
X'X ligados a los r mayores valores propios. 

La representacion biplot de una matriz X consiste en aproximarla mediante la descom- 
posicion en valores singulares de rango dos, tomando r = 2 : 

X « V 2 D 2 /2 A' 2 = (V 2 D2 /2 " c/2 )(D2 /2 A' 2 ) = FC 

1 /0 

donde V 2 esnx2, D 2 es diagonal de orden 2 y A' 2 es 2 xp . Tomando 0 < c < 1 se obtienen 
dist.intas descomposiciones de la matriz X en dos matrices. La primera, F representa las 
n filas de la matriz X en un espacio de dos dimensiones y la segunda, C, representa en el 
mismo espacio las columnas de la matriz. Segun el valor de c se obtienen distintos biplots. 
Los mas utilizados son para c = 0, 0, 5, y 1. 

Vamos a interpretar el biplot cuando c = 1, que es el caso mas interesante. Entonces 
representaremos las observaciones, filas de X, por las filas de la matriz V 2 , y las variables, 
columnas de X, por las columnas de la matriz D 2 2 A 2 . Para distinguir ambas representa- 
ciones las observaciones se dibujan como puntos y las variables como vectores en el piano. 
Se verifica que: 
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(1) La representation de las observaciones como puntos en un piano mediante las filas de 
V 2 , equivale a proyectar las observaciones sobre el piano de las dos componentes principales 
estandarizadas para que tengan varianza unidad. 

(2) Las distancias euch'deas entre los puntos en el piano equivale, aproximadamente, a 
las distancias de Mahalanobis entre las observaciones originales. 

(3) La representation de las variables mediante vectores de dos coordenadas es t-al que el 
angulo entre los vectores equivale, aproximadamente, a la correlation entre las variables. 

Para demostrar estas propiedades utilizaremos la relation entre los componentes y los 
vectores propios de XX'. Las coordenadas de los componentes principales son Z = XA, y, 
como hemos visto en la section anterior, los vectores que forman las columnas de Z son 
vectores propios sin normalizar de XX'. En efecto, los vectores propios de X'X verifican 

X Xcp — A i&i 

y multiplicando por X tenemos que 

XX'(XaJ = Aj(Xaj) 

por tanto, z, = Xa, es un vector propio de la matriz XX', pero no esta normalizado a norma 
unidad. El vector propio normalizado sera 


1 



Generalizando, la matriz de vectores propios de XX' normalizados a norma unidad sera 

V = [vi,...,v p ] = -^=zi,...,-^=z p = ZD -1/2 

y es inmediato que con esta normalization V'V = D - 1 / 2 ZZD -1//2 = D ^ 2 DD = 1 . Por 
tanto si representamos los puntos por V 2 tenemos las proyecciones estandarizadas a varianza 
uno de las observaciones sobre los dos primeros componentes. 

Vamos a comprobar la segunda propiedad. Una observation se representa por los compo- 
nentes principales por x'A, y si estandarizamos los componentes a varianza uno x'AD 12 . 
Las distancias euch'deas al cuadrado entre dos observaciones en terminos de sus coordenadas 
en los componentes estandarizados seran: 

x'AD - 1 / 2 — XjAD -1 / 2 = (xj — Xj)'AD - 1 A / (xj — x^)' 

y como S = ADA' entonces S 1 = AD 2 A y obtenemos la distancia de Mahalanobis entre 
las observaciones originales. Si en lugar de tomar los p componentes tomamos solo los dos 
mas importantes esta relation sera aproximada y no exacta. 

Comprobaremos por ultimo que si representamos las variables como vectores con co- 
ordenadas Df A' = C los angulos entre los vectores representan, aproximadamente, la 
correlation entre las variables. Para ello escribiremos 

s ~ A 2 D 2 A ' 2 = CC' 



Ci ... Cp 
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donde Ci es un vector 2x1 correspondiente a la primera columna de la matriz C. De esta 
expresion es inmediato que 


y 


c'c- = s 2 


CiCj Sij 


y finalmente 


c'c 


m = 




COs(CjCj) 


Por tanto, aproximadamente el angulo entre estos vectores es el coeficient.e de correlation 
entre las variables. 

La precision de la representation del biplot depende de la importancia de los dos primeros 
valores propios respecto al total. Si (Ai + \f)/tr(S) es proximo a uno la representation sera 
muy buena. Si este valor es pequeno el biplot no proporciona una representation fiable de 
los datos. 

Ejemplo 6.3 Vamos a utilizar la base de datos de MUNDODES (tabla A . 6 del Anexo), 
cuyos componentes principales se obtuvieron en el capitulo anterior (veae el ejemplo ***). 
Esta matriz de datos esta constituida por 91 paises en los que se han observado 9 variables: 
X\: ratio de natalidad, X 2 : ratio de mortalidad, X 3 : mortalidad infant.il, X 4 : esperanza de 
vida en hombres X 5 : esperanza de vida de mujeres y X 6 : PNB per capita. 

La figura 6.3 es un biplot donde se han represent-ado conjuntamente las observaciones por 
su proyeccion estandarizada en el piano de los dos componentes principales. El lector debe 
observar que ahora la variabilidad en ambos componentes es la misma como consecuencia de 
la estandarizacion, lo que no ocurria en los graficos anteriores donde las escalas eran muy 
diferentes. Se han representado tambien las variables como vectores de m.anera que el angulo 
entre las variables sea aproximadamente igual a sus correlaciones. En el biplot se observa 
una separacion de los paises en dos grupos y, por otro lado, una division de las variables en 
tres grupos: en el primero est.an las t.asas de mortalidad infantil y natalidad que est.an muy 
correladas entre si, por otro la tasa de mortalidad, que tiene baja correlacion con el resto de 
variables, y por otro la rent-a y las esperanzas de vida de hombres y mujeres que est.an muy 
correladas con la rent-a. 

En el grafico 6.4 se muestra la misma representacion conjunta que en la figuras 6.3 en el 
caso de realizar el analisis norm.ado de componentes principales en las variables originales. 
Se aprecia una relacion no lineal entre las dos primeras componentes. 

6.6 ESCALADO NO METRICO 

En los problemas de escalado no metrico se parte de una matriz de diferencias o disimili- 
tudes entre objetos que se ha obtenido generalmente por consultas a jueces, o a partir de 
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Figura 6.3: Representation de observaciones y variables en el piano de las dos primeras 
componentes, variables en logaritmos. 


procedimientos de ordenacion de los elementos. Por ejemplo, el escalado no metrico se ha 
aplicado para estudiar las semejanzas entre las actitudes, preferencias o percepciones de per- 
sonas sobre asuntos politicos o sociales o para evaluar preferencias respecto a productos y 
servicios en marketing y en calidad. Los valores de una tabla de similaridades o distancias 
se obtienen habit ualmente por alguno de los procedimientos siguientes: 

1. Estimacion directa. Un juez, o un conjunto de jueces, estiman directamente las 
distancias entre los elementos. Una escala muy utilizada es la escala 0-100, de manera que 
la distancia o disimilaridad entre un elemento y sf mismo sea cero y la distancia entre dos 
elementos distintos refleje la percepcion de sus diferencias. Con n elementos esto requiere 
n{n — l)/2 evaluaciones. 

2. Estimacion de rangos. Se selecciona un elemento y se pide al juez, o grupo de jueces, 
que ordene los n 1 restantes por mayor o menor proximidad al seleccionado. A continuacion 
se selecciona el siguiente y se ordenan los n - 2 restantes, y asi sucesivamente. Existen 
algoritmos de calculo que transforman estas ordenaciones en una matriz de distancias (vease 
Green y Rao, 1972). 

3. Rangos por pares. Se presentan al juez los n (n — l)/2 pares posibles y se le pide 
que los ordene de mayor a menor distancia. Por ejemplo, con cuatro objetos supongamos 
que se obtienen los resultados en orden de distancia: (3,4), (2,3), (2,4), (1,4), (1,2) y (1,3). 
Entonces, los mas proximos son los objetos 3 y 4, y a esta pareja se le asigna el rango 1. 


6.6. ESC AL ADO NO METRICO 


195 


O 

O 


-5 


CO 

d 


™ IV 
§ern 


Alg 


q _i 

o 

T 


CM 

o 


10 


Switzerland 


alawi 

Leone 


Mexico 


Gambia 


ort 


Mozambique 

B «n 

.lii^^desh 
ortlnf Ugarwgfiqo 

SwJg&fiF 

asaNat. 


Bel 9Wi£UH 

NetliMM 

Austria 


apan 





^mirates 

^iy_Konf 


T 


T 


- 0.2 


- 0.1 


0.0 0.1 
Comp. 1 


0.2 


0.3 


Figura 6.4: Representation de observaciones y variables en el piano de las dos primeras 
componentes, variables originales. 


A la pareja siguiente, (2,3), se le asigna rango dos y asf sucesivamente hasta la pareja de 
los elementos mas alejados, el 1 y el 3, que reciben rango n(n — l)/2, que es 6 en este caso. 
A continuation se calcula un rango medio para cada objeto, promediando los rangos de los 
pares donde aparece. Por ejemplo, el objeto 1 aparece en pares que tienen rango 4, 5 y 6, 
con lo que el rango del objeto 1 es : 


rango( 1) 


4 + 5 + 6 
3 


5. 


Igualmente obtenemos que rango(2)= (2 + 3 + 5)/2 = 3,3; rango(3)= (1 + 2 + 6) /3 = 3 
y rango(4) = (1 + 3 + 4) / 3 = 2, 7. Las diferencias entre los rangos se toman ahora como 
nredidas de distancia entre los objetos. 

Se supone que la matriz de similaridades esta relacionada con un matriz de distancias, 
pero de una manera compleja. Es decir, se acepta que los jueces utilizan en las valoraciones 
ciert-as variables o dimensiones, pero que, ademas, los datos incluyen elementos de error y 
variabilidad personal. Por tanto, las variables que explican las similitudes entre los elementos 
comparados determinaran una distancias eucli'deas entre ellos, d^, que estan relacionadas con 
las similitudes dadas, 6ij , mediante una funcion desconocida 
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donde la unica condition que se impone es que / es nna funcion monotona, es decir, si 

b ij &ih d/y ^ 1/ h. • 

El objet-ivo que se pretende es encontrar unas coordenadas que sean capaces de reproducir 
estas distancias a partir unicamente de la condition de monotonia. Para ello hay que definir: 

(1) Un criterio de bondad del ajuste que sea invariante ante transformaciones monotonas 
de los datos. 

(2) Un algoritmo para obtener las coordenadas, optimizando el criterio establecido. 
Estos problemas no tienen solucion unica y se han presentado muchos procedimientos 

alternativos. El mas ut.ilizado es minimizar las diferencias entre las distancias derivadas 
de las coordenadas principales, , y las similitudes de partida b l3 , es decir minimizar 
~ dij ) 2 para todos los terminos de la matriz. Esta cantidad se est-andariza para 
favorecer las comparaciones, con lo que se obtiene el criterio de ajuste denominado STRESS, 
dado por: 


S 2 = Ail (6.25) 

zZi<j °ij 

Un criterio alternative es minimizar las distancias al cuadrado, con lo que se obtiene el 
criterio S-STRESS. Se han prop vies to otros criterios que el lector puede consultar en Cox 
y Cox (1994). Las distancias se determinaran encontrando p coordendas principales 
que se utilizan como variables implicitas y %3 , i = 1, ...,n, j = 1, ...p, que determinaran unas 
distancias euch'deas entre dos elementos: 

p 

dij = y . (Pis — Vjs) (6.26) 

S=1 

El metodo de calculo es partir de la solution proporcionada por las coordenadas principales e 
iterar para mejorar esta solution minimizando el criterio (6.25). Normalmente se t.oma p = 2 
para facilitar la representation grafica de los datos, pero el numero de dimensiones necesario 
para una buena representation de los datos puede est.imarse probando distintos valores de 
p y estudiando la evolution del criterio de forma similar a como se determina el numero de 
componentes principales. Fijado p el problema es minimizar (6.25) donde las distancias se 
calculan por (6.26). Derivando respecto a los valores de las coordenadas en los individuos 
(vease apendice 6.1) se obtiene un sistema de ecuaciones no lineales en las variables y cuya 
solution requiere un algoritmo de optimization no lineal. Suele tomarse como solution initial 
la obtenida con las coordenadas principales. Remitimos al lector interesado en los detalles 
de los algoritmos a Cox y Cox (1994). 

Ejemplo 6.4 Utilizaremos la matriz de similitudes entre productos. Con el programa SPSS 
se obtiene la solucion indicada en la figura 6.5. Los productos A, B, C, etc se han repre- 
sentado en el grafico como ml, m2, m3,... Como puede verse la solucion es similar a la 
obtenida con coordenadas principales, pero no identica. 
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Configuration de estimulos derivada 
Modelo de distancia euch'dea 



Dimension 1 


Figura 6.5: Representation de los productos con el escalado no metrico 


El valor del coeftciente al finalizar la estimation no lineal es Stress = .14134 y la propor- 
tion de variabilidad explicada, RSQ = .87957. 

La figura 6.6 presenta la relation entre las distancias obtenidas y las observaciones. Se 
aprecia que la relation es monotona, aunque no lineal. 
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Figura 6.6: Relation entre las distancias originales y las calculadas por el escalado multidi- 
mensional 
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6.7 Lect uras complement arias 

Los capttulos 11 y 12 de Jackson (1991) contienen ampliaciones sobre este tema y muchas 
referencias. El libro de Dillon y Goldstein (1984) presenta nna introduccion clara y simple 
del escalado multidimensional no metrico. Gnanadesikan (1997) presenta tambien una buena 
introduccion al tema. Libros dedicados al escalado multidimensional son los de Schiffman et 
al (1981), Coxon (1982), Davidson (1983), Kruskal y Wish (1978), Green et al (1989) y Cox 
y Cox (1994). Young (1987) contiene muchos ejemplos de aplicacion. Gower y Hand (1996) 
esta integramente dedicado a los biplots. 

EJERCICIOS 

Ejercicio 6.1 Si la distancia euclidea entre dos elementos se define por d 2 3 = (xj — Xj)'(xj — 
Xj) demostrar que puede escribirse corrw d 2 rj = qa + q 33 — 2 q i3 donde los q l3 son elementos de 
la matriz XX'. 


Ejercicio 6.2 Demostrar que d 2 rj = (x* — Xj)'(x* — x^) puede escribirse como df 3 = qa + q 33 — 
2 qij donde ahora los qij son elementos de la matriz XPX', siendo P la matriz proyeccion 
que elimina las madias definida en 6.12 

Ejercicio 6.3 Demostrar que si tenemos una solucion Y r de coordenadas principales tam- 
bien es solucion Z r = Y r C + b, donde C es una matriz ortogonal y b cualquier vector. 


Ejercicio 6.4 Demostrar que si la matriz Q es semidefinida positiva se verifica que qa + 
q 3 j — 2 q^ > 0. (Ayuda: utilice que si Q es definida positiva u'Qu > 0 para cualquier vector 
u y tome u = (0, ..., 1, —1, 0, ..., 0)') 

Ejercicio 6.5 Demostrar que si Q es semidefinida positiva las magnitudes d 3] = qn+qjj—2qij 
verifican las propiedades de una distancia. (Ayuda: para comprobar la propiedad triangular 
utilice que para tres puntos u'Qu > 0 con u = (1, — 1, —1)' implica qu + q 2 2 + 933 — 2 g 12 — 
2<?13 + 2^32 > 0 ) 

Ejercicio 6.6 Demostrar que se verifica la relacion Q = PQP. 


Ejercicio 6.7 Demostrar que la descomposicion biplot puede escribirse como Y r A' r donde 
el primer termino contiene las coordenadas principales y el segundo las componentes princi- 
pales. 


Apendice 6.1Maximizacion del STRESS 

El procedimiento de optimizacion del criterio se obtiene derivando el STRESS respecto 
a cada termino, y ip , que nos indica como se modifica el criterio si modificamos el valor de la 
variable p en el elemeto i, lo que conduce a las ecuaciones 


dS 2 
9 Hip 




3 = 1 



ddij 

dyip 


0 


(6.27) 
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El cambio eii las distancias del punto i a todos los demas cuando cambiamos la coordenada 
p de este punto es, por (6.26): 


ddij ( Hip Vjp) 

* 9 Dip dij 

y sustit.uyendo en (6.27) tenemos que la ecuacion a resolver es 

\ ^ (Sjj - dij ) _ \ - (Sjj - d i:j ) _ 

iJw 2_^ c- 2_^ -r yjp ~ u - 

j= l dij j =1 dij 

Si derivamos para los rip valores de las coordenadas principales, el sistema de ecuaciones 
resultante puede escribirse conjuntamente como 

FX = 0 

donde F es una matriz cuadrada y simetrica de orden n con coeficient-es 
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Capftulo 7 


ANALISIS DE 
CORRESPOND ENCIAS 

7.1 INTRODUCTION 

El analisis de correspondencias es una t-ecnica descript-iva para representar tablas de contin- 
gencia, es decir, tablas donde recogemos las frecuencias de aparicion de dos o mas variables 
cualit-at-ivas en un conjunto de elementos. Constituye el equivalente de componentes princi- 
pales y coordenadas principales para variables cualitat-ivas. La information de partida ahora 
es una matriz de dimensiones / x J, que representa las frecuencias absolut-as observadas 
de dos variables cualitat-ivas en n element-os. La primera variable se representa por filas, y 
suponemos que t-oma / valores posibles, y la segunda se representa por columnas, y t-oma 
J valores posibles. Por ejemplo, la t-abla 7.1 presenta la clasificacion de n = 5387 escolares 
escoceses por el color de sus ojos, que t-iene cuatro cat-egorias posibles y / = 4, y el color 
de su cabello, que t-iene cinco cat-egon'as posibles y J = 5. Est-a t-abla t-iene int-eres historico 
ya que fue ut-ilizada por Fisher en 1940 para ilustrar un met-odo de analisis de t-ablas de 
contingencia que esta muy relacionado con el que aquf presentamos. 

En general, una t-abla de contingencia es un conjunto de numeros posit-ivos dispuestos 
en una matriz, donde el numero en cada casilla representa la frecuencia absoluta observada 
para esa combinacion de las dos variables. 

Una manera de llegar a una t-abla de contingencia / x J es definir I variables binarias para 




Color 

del 

pelo 



C. ojos 

rubio 

pelirrojo 

castano 

oscuro 

negro 

total 

claros 

688 

116 

584 

188 

4 

1580 

azules 

326 

38 

241 

110 

3 

718 

cast-anos 

343 

84 

909 

412 

26 

1774 

oscuros 

98 

48 

403 

618 

85 

1315 

total 

1455 

286 

2137 

1391 

118 

5387 


Tabla 7.1: Tabla de Contingencia del color de los ojos y el color del pelo de escolares escoceses. 
Recogida por Fisher en 1940 
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las categorfas de las filas y J para las de las columnas y diponer estas variables en matrices 
X Q para las filas y X/ ; para las columnas. Por ejemplo, la matriz X a para la variable color de 
los ojos cont-endra 4 variables en columnas correspondient-es a las 4 categorfas consideradas 
para indicar el color de ojos, y en cada fila solo una columna tomara el valor uno, la que 
corresponda al color de ojos de la persona. La matriz t-endra 5387 filas correpondientes a las 
personas incluidas en la muestra. Por tanto, la matriz X a de dimensiones 5387 x 4 sera de 
la forma: 

0 0 " 

0 1 

0 1 
0 0 _ 

donde hemos t-amado las categorfas para el color de ojos en el mismo orden que aparecen en las 
filas de la tabla 7.1. Por ejemplo, el primer dato corresponde a una persona de ojos claros, ya 
que t-iene un uno en la primera columna. El segundo dato tiene un uno en la cuarta cat-egorfa, 
que corresponde a ojos oscuros. Finalmente, el ultimo elemento de la matriz corresponde a 
una persona de ojos azules. De la misma forma, la matriz X/, tendra dimensiones 5387 x 5 y 
las columnas indicaran el color del cabello de cada persona. Observemos que estas matrices X 
de variables binarias tienen tantas columnas como categorfas y sus variables son linealmente 
dependientes, ya que siempre la suma de los valores de una fila es uno, al ser las categorfas 
excluyentes y exhaustivas. Al realizar el product-o X a X& sumaremos todas las personas que 
tienen cada par de caracterfst-icas y se obtiene la tabla de contingencia. 

El analisis de correspondencias es un procedimiento para resumir la informacion cont-enida 
en una tabla de contingencia. Puede interpretarse de dos formas equivalentes. La primera, 
como una manera de representar las variables en un espacio de dimension menor, de forma 
analoga a componentes principals, pero definiendo la distancia ent-re los punt-os de manera 
coherent-e con la interpretacion de los dat-os y en lugar de utilizar la distancia euclfdea 
utilizamos la distancia ji-cuadrado. Desde este enfoque, el analisis de correspondencias es el 
equivalent-e de componentes principales para dat-os cualit-at-ivos. La segunda interpretacion 
esta mas proxima al escalado multidimensional: es un procedimiento objet-ivo de asignar 
valores numericos a variables cualit-at-ivas. Vamos a analizar estos dos aspectos. 

7.2 BUSQUEDA DE LA MEJOR PROYECCION 

En adelant-e trabajaremos con la matriz F de frecuencias relat-ivas obtenida dividiendo cada 
casilla por n, el total de element-os observados. Llamaremos a las frecuencias relat-ivas 
que verifican 

XX> = i 

i=i j = i 

La matriz F puede considerarse por filas o por columnas. Cualquier analisis logico de est-a 
matriz debe de ser equivalent-e al aplicado a su transpuesta, ya que la eleccion de la variable 


X a = 


1 0 
0 0 

0 0 
0 1 
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Sobre. 

Not. 

Aprob. 

Sus. 

Total 

Zona A 

0,03 

0,06 

0,15 

0,06 

0,3 

Zona B 

0,07 

0,14 

0,35 

0,14 

0,7 

Total 

0,1 

0,2 

0,5 

0,2 

f 


Tabla 7.2: Clasibcacibn de est-udiantes por zona geograbca y calificacion obtenida 


que se coloca en filas, en lugar de en columnas, es arbitraria, y no debe influir en el analisis. 
Vamos a presentar primero el analisis por filas de esta matriz, que sera simetrico al analisis 
por columnas, que est-udiaremos a continuacion. 

7.2.1 Proyeccion de las Filas 

Vamos a analizar la matriz de frecuencias relativas, F, por filas. Entonces las I filas pueden 
tomarse como / puntos en el espacio fb 7 . Vamos a buscar una representacion de est-os / 
punt-os en un espacio de dimension menor que nos permita apreciar sus distancias relativas. 
El objet-ivo es el mismo que con componentes principales, pero ahora t-endremos en cuenta 
las peculiaridades de est-e tipo de dat-os. Est-as peculiaridades provienen de que la frecuencia 
relat-iva de cada fila es distiuta, lo que implica que: 

(1) Todos las filas (punt-os en fV) no tienen el mismo peso, ya que algunas continen mas 
dat-os que otras. Al representar el conjunto de las filas (punt-os) debemos dar mas peso a 
aquellas filas que contienen mas dat-os. 

(2) La distancia euch'dea entre puntos no es una buena medida de su proximidad y 
debemos modificar esta distancia, como veremos a continuacion. 

Comenzando con el primer punto, cada fila de la matriz F tiene una frecuencia relat-iva 
fi, = | fij, y el conjunto de est-as frecuencias relativas se calcula con: 

f = F'l 

debemos dar a cada fila un peso proportional a su frecuencia relat-iva y los terminos del 
vector f pueden direct-ament-e considerarse como pesos, ya que son numeros positivos que 
suman uno. 

Con relation a la medida de distancia a utilizar entre las filas, observemos que la dis- 
tancia euch'dea no es una buena medida de las diferencias reales entre las estructuras de las 
filas. Por ejemplo, supongamos la tabla 7.2 donde se presentan las frecuencias relativas de 
estudiantes clasificados por su procedencia geografica, (A 6 B) y sus calificaciones. Aunque 
las frecuencias relativas de las dos filas son muy distint-as, las dos filas t-ienen exact-ament-e la 
misma estructura relat-iva: simplemente, hay mas del doble de est-udiantes de la zona B que 
de la A, pero la distribution de calificaciones es ident-ica en ambas zonas. Si calculamos la 
distancia euch'dea entre las zonas obtendremos un valor alt-o, que no refleja una estructura 
dist-int-a de las filas sino solo que tienen distinta frecuencia relat-iva. Suponganos que dividi- 
mos cada casilla por la frecuencia relat-iva de la fila, /*.. Con est-o se obtiene la t-abla 7.3 
donde los numeros que aparecen en las bias representan la frecuencia relat-iva de la variable 
columna condicionada a la variable bla. Ahora las dos bias son ident-icas, y esto es coherent-e 
con una distancia euch'dea cero entre ambas. 



204 


CAPITULO 7. ANALISIS DE CORRESPONDENCIAS 



Sobre. 

Not. 

Aprob. 

Sus. 

Total 

Zona A 

0,1 

0,2 

0,5 

0,2 

1 

Zona B 

0,1 

0,2 

0,5 

0,2 

1 


Tabla 7.3: Clasificacidn de est-udiantes por zona geografica y calificacion obtenida 




Color 

del 

cabello 



C. ojos 

rubio 

pelirrojo 

castano 

oscuro 

negro 

total 

claros 

0.435 

0.073 

0.369 

0.119 

0.003 

1 

azules 

0.454 

0.053 

0.336 

0.153 

0.004 

1 

cast-anos 

0.193 

0.047 

0.512 

0.232 

0.015 

1 

oscuros 

0.075 

0.037 

0.307 

0.518 

0.065 

1 


Tabla 7.4: Tabla de frecuencias relativas del color del cabello condicionada al color de los 
ojos para los escolares escoceses 

Para analizar que medida de distancia debemos utilizar, llamaremos R a la matriz de 
frecuencias relativas condicionadas al total de la fila, que se obt-iene con: 


R = D / -'F (7.1) 

donde Dy es una matriz diagonal I x I con los ter m in os del vector f, f im , frecuencias rela- 
tivas de las filas, en la diagonal principal. Esta operacion transforma la matriz original de 
frecuencias relativas, F, en otra matriz cuyas casillas por filas suman uno. Cada fila de esta 
matriz representa la distribution de la variable en columnas condicionada al atributo que 
representa la fila. Por ejemplo, la tabla 7.4 presenta las frecuencias relativas condicionadas 
para la tabla 7.1. En est-e caso / = 4 , J — 5. Esta tabla permite apreciar mejor la asociacion 
entre las caracterfsticas estudiadas. 

Llamaremos r' a la fila i de la matriz R de frecuencias relativas condicionadas por 
filas, que puede considerarse un punto (o un vector) en el espacio fb y . Como la suma de los 
componentes de r' es uno, t-odos los puntos estan en un espacio de dimension J— 1. Queremos 
proyectar estos puntos en un espacio de dimension menor de manera que las filas que tengan 
la misma estruct-ura esten proximas, y las que tengan una estructura muy diferente, alejadas. 
Para ello, debemos definir una medida de distancia entre dos filas r a , r &. Una posibilidad es 
utilizar la distancia euch'dea, pero esta distancia tiene el inconvenient-e de tratar igual a todos 
los componentes de estos vectores. Por ejemplo, en la tabla 7.1 las personas de cabello rubio 
tienen una diferencia en frecuencia relat-iva entre los ojos azules y claros de 0,454-0,435= 
0,019, y las personas de cabello negro tienen un diferencia en frecuencia relat-iva entre los 
ojos cast-anos y azules de 0,015 - 0,004=0,011. Hay una diferencia mayor en el primer caso 
que en el segundo y, sin embargo, intuitivamente vemos que la segunda diferencia es mayor 
que la primera. La razon es que en el primer caso el cambio relat-ivo es pequeno, del orden 
del 4% ( 0,019/0,454), mientras que en el segundo caso el cambio relat-ivo es muy grande: 
las personas de cabello negro tienen ojos castanos casi cuatro veces mas frecuentemente ( 
0,015/0,004=3,75 veces) que ojos azules. Como los componentes representan frecuencias 
relativas, no parece adecuado que una diferencia de 0,01 se considere igual en un at-ribut-o 
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de alt-a frecuencia (por ejemplo, pasar de 0,60 a 0,61) que en un atributo de baja frecuencia 
(por ejemplo, pasar de 0,0001 a 0,0101). 

Para obtener comparaciones razonables entre estas frecuencias relativas t-enemos que 
tener en cuent-a la frecuencia relat-iva de aparicion del atributo que estudiamos. En atributos 
raros, pequenas diferencias absolut-as pueden ser grandes diferencias relativas, mientras que 
en atributos con gran frecuencia, la misma diferencia sera poco importante. Una manera 
intuitiva de construir las comparaciones es ponderar las diferencias en frecuencia relat-iva 
entre dos atributos inversamente proporcional a la frecuencia de est-e atributo. Es decir, en 
lugar de sumar los terminos {r aj — r b j) 2 = (f a j/ fa. — fbj/ fa.) 2 que miden la diferencia que las 
filas ay b t-ienen en la columna j sumaremos los terminos ( ^aj — Hj ) 2 / f.j donde f.j. = J2i=i fij 
es la frecuencia relativa de la columna j . La expresion de la distancia entre dos filas, r a y 
i'i, de R vendra dada en est-a metrica por 


D 2 (r a ,r b ) = 

3=1 


U_ 

fa. 


fbj\ 2 1 
fb. ^ /,. 


J 

E 

3 = 1 


a 3 


r bjf 




que puede escribirse matricialmente como 


(7.2) 


£> 2 (r„, i b ) = (r„ - r t )'D c ‘(r„ - r t ) (7.3) 

donde D c es una matriz diagonal con terminos f.j,. A la distancia (7.2) o (7.3) se la conoce 
como distancia y 2 , y se analizara con mas det-alle en la seccion siguient-e. 

Observemos que esta distancia equivale a la distancia euch'dea entre los vect-ores trans- 
formados y, = D c 1 ^ 2 rj. Podemos pues simplificar el problema definiendo una matriz de 
dat-os transformada, sobre la que tiene sentido considerar la distancia euch'dea entre filas. 
Llamando: 


Y = R D c ~ 1/2 = D^F D; 172 
obt-enemos una matriz Y que contiene terminos del tipo 


(7.4) 


W= {«p} (7 ' 5) 

que ya no suman uno ni por filas ni por columnas. Las casillas de esta matriz representan las 
frecuencias relativas condicionadas por filas, fij/ fi., pero est-andarizadas por su variabilidad, 
que depende de la rafz cuadrada de la frecuencia relativa de la columna. De esta manera 
las casillas son directamente comparables entre sf. La t-abla 7.5 indica esta matriz result-ado 
de estandarizar las frecuencias relativas de la tabla 7.1 dividiendo cada casilla por la rafz 
cuadrada de la frecuencia relativa de la columna correspondiente, que se obtiene de la t-abla 
7.1. Por ejemplo, el primer element-o de la tabla 7.5 se obtiene como 0.435/ \J (1455/5387) = 
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83 7 

.316 

.587 

.235 

.015 

873 

.228 

.536 

.301 

.02 9 

374 

.205 

.815 

.455 

.09 5 

14 7 

. 161 

.484 

1.022 

.440 


Tabla 7.5: Matriz estandarizada por fila y por variabilidad del color de los ojos y el color del 
pelo de escolares 

0.0114. En esta tabla la estructura de las columnas es similar a la de la tabla 7.1 de 
frecuencias relat.ivas, ya que hemos dividido todas las casillas de cada columna por la misma 
cant-idad. 

Podn'amos tratar a esta matriz como una matriz de datos estandar, con observaciones en 
filas y variables en columnas, y preguntarnos como proyectarla de manera que se preserven 
las distancias relativas entre las filas, es decir, las filas con estructura similar aparezcan 
proximas en la proyeccion. Esto implica encontrar una direccion a de norma unidad, 

a'a = 1 (7.6) 

tal que el vector de puntos proyectados sobre esta direccion, 

y P (a) = Y a (7.7) 

tenga variabilidad maxima. El vector a se encontrara maximizando y p (a) / y P (a) = a'Y'Y a 
con la condicion (7.6), y este problema se ha resuelto en el capi'tulo 5 al estudiar componentes 
principales: el vector a es un vector propio de la matriz Y'Y. Sin embargo, este tratamiento 
de la matriz Y como una matriz de variables continuas no es del todo correcto porque las filas 
tienen una distinta frecuencia relativa, /,., y por tanto deben tener distinto peso. Aquellas 
filas con mayor frecuencia relativa deben de tener mas peso en la representacion que aquellas 
otras con frecuencia relativa muy baja, de manera que las filas con gran numero de individuos 
esten bien representadas, aunque esto sea a costa de representar peor las filas con pocos 
elementos. En consecuencia, daremos a cada fila un peso proporcional al numero de datos 
que contiene. Esto puede hacerse maximizando la suma de cuadrados ponderada. 


m = a'Y'D f Y a 

sujeto a (7.6), que equivale a 

m = a / Dj 1/2 F / Dj 1 FD“ 1/2 a. 

Alternativamente, podemos construir una matriz de datos Z definida por 

z = dj 1 / 2 fd ; 1/2 

cuyos componentes son 



(7.8) 

(7.9) 
(7.10) 
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y que est-andariza las frecuencias relativas en cada casilla por el product-o de las rafces 
cuadradas de las frecuancias relativas tot-ales de la fila y la columna, y escribir el problema 
de encontrar el vector a como el problema de maximizar m = a' Z'Za sujet-o a la restriccion 
(7.6). Este es el problema resuelt-o en component.es principales, cuya solucibn es 

Dj 1 / 2 F'Dj 1 FD“ 1 ' /2 a =Aa (7.11) 

y a debe ser un vector propio de la matriz Z'Z donde Z esta dado por (7.9) y A su valor 
propio. 

Vamos a comprobar que la matriz Z'Z t-iene como mayor valor propio siempre el 1 y como 
vector propio D)/ 2 . Multiplicando por la izquierda en (7.11) por D7 1/2 se obtiene: 

D c - 1 F , D / 1 F(D; 1/2 a) =A(D c " 1/2 a) 

Las matrices D ^ 1 F y FDJ 1 representan matrices de frecuencias relativas por filas y por 

columnas y su suma por filas y columnas respectivamente es uno. Por tanto D J 1 FI = 1 

y D^F'l = 1, que implica que la matriz D c 1 F'D f 1 F tiene un valor propio 1 unido a un 

vector propio 1. En consecuencia, haciendo (D~ 1//2 a) = 1 concluimos que la matriz Z'Z tiene 

1 /2 

un valor propio igual a uno con vector propio D c . 

Olvidando esta solucion trivial, que no da informacion sobre la estructura de las filas, 
tomaremos el valor propio mayor menor que la unidad y su vector propio asociado a. En- 
t-onces, proyectando la matriz Y sobre la direccion a encont-rada: 


y/(a) = Ya = Dj 1 FD ( T 1/2 a (7.12) 

y el vector y/(a) es la mejor represent acion de las filas de la tabla de contingencia en una 
dimension. Analogament-e, si ext-raemos el vector propio ligado al siguient-e mayor valor 
propio obtenemos una segunda coordenada y podemos representar las filas en un espacio de 
dimension dos. Las coordenadas de la representacion de cada fila vendran dadas por las filas 
de la matriz 


c f = ya 2 = D 7 1 fd; 1 / 2 a 2 

donde A 2 = [a 1 a 2 ] contiene en columnas los dos vectores propios Z'Z. La matriz C/ es / x 2 
y las dos coordenadas de cada fila proporcionan la mejor representacion de las filas de la 
matriz F en un espacio de dos dimensiones. El procedimiento se ext-iende sin dificult.ad para 
representaciones en mas dimensiones, calculando vectores propios adicionales de la matriz 

Z'Z. 

En resumen el procedimiento que hemos present-ado para buscar una buena representacion 
de las filas de la tabla de contingencia es: 

(1) Caracterizar las filas por sus frecuencias relativas condicionadas, y considerarlas como 
punt-os en el espacio. 

(2) Definir la distancia entre los puntos por la dist-ancia y 2 , que t-iene en cuenta que cada 
coordenada de las filas t-iene distinta precision. 
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(3) Proyect-ar los puntos sobre las direcciones de maxima variabilidad, teniendo en cuenta 
que cada fila tiene un peso distinto e igual a su frecuencia relat.iva. 

El procedimiento operativo para obtener la mejor representacion bidimensional de las 
filas de la tabla de contingencia es: 

(1) Calcular la matriz Z Z y obtener sus vectores y valores propios. 

(2) Tomar los dos vectores propios, a 1; a 2 , ligados a los mayores valores propios menores 
que la unidad de esta matriz. 

(3) Calcular las proyecciones FD r “a,, i = 1,2, y represent arias graficamente en un 
espacio bidimensional. 

Ejemplo 7.1 Aplicaremos este analisis a la matriz de la tabla 7.1. La matriz de frecuencias 
relativas estandarizada por filas, R, se presenta en la tabla 7.f. 

La variable transformada, Y, se calcula como 

T 1455 

286 

2137 

1391 

118 

dando lugar a 


83 7 

.316 

.587 

.235 

.015 

873 

.228 

.536 

.301 

.02 9 

374 

.205 

.815 

.455 

.09 5 

14 7 

. 161 

.484 

1.022 

.440 


Esta matriz puede interpretarse como una matriz de datos donde por filas tenemos ob- 
servaciones y por columnas variables. Para obtener la mejor representacion de las filas en 
un espacio de dimension dos, vamos a obtener los vectores propios de la matriz YD/Y. Los 
tres primeros valores y vectores propios de esta matriz se presentan en la tabla siguiente por 
filas: 

valor propio vector propio 

1 -0.5197 -0.2304 -0.6298 -0.5081 -0.1480 

0.1992 -0.6334 -0.1204 -0.0593 0.6702 0.3629 

0.0301 -0.5209 -0.0641 0.7564 -0.3045 -0.2444 

Los otros dos valores propios de esta matriz son 0,0009 0,0000. La proyeccion de los 
puntos sobre el espacio definido por los valores propios .1992 y .0301 se presenta en la figura 
7.1 

El eje de abscisas contiene la primera dimension que explica el . 1992/ ( . 1992+ .0301+. 0009)=. 8653. 
Vemos que se separan claramente los ojos claros y azules frente a castanos y oscuros. La 
primera dimension es pues claro frente a oscuro. La segunda dimension separa las carac- 
ten'sticas puras, ojos claros o azules y negros, frente a la mezclada, castanos. 

Ejemplo 7.2 En un estudio de mercado f evaluadores han indicado que caracteristicas con- 
sideran importantes en un tipo de producto. El resultado es la matriz F donde en columnas 
se representan los evaluadores y en filas los productos. 
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Figura 7.1: Proyeccion de las filas de la matriz de los colores de ojos y pelo sobre el mejor 
espacio de dimension 2. 



1 

2 

3 

4 

Cl 

0 

0 

1 

0 

C 2 

1 

1 

0 

0 

C 3 

0 

1 

0 

1 

c 4 

0 

0 

0 

1 

C 5 

0 

1 

0 

0 

C 6 

1 

1 

1 

0 


Esta matriz es una tabla de contingencia muy simple donde las frecuencias posibles son 
cero o uno. La matriz Z es 


Z = 


0 

.5 

0 

0 

0 

.408 


0 

.35 

.35 

0 

.5 

.289 


.707 

0 

0 

0 

0 

.408 


0 

0 

.50 

.707 

0 

0 


y los valores propios de Z'Z son (1, 0.75, 0.50, 0.17). El vector propio asociado al mayor valor 
propio menor que uno es v = (0.27, 0, 0.53, —0.80). La proyeccion de las filas de Y sobre las 
dos direcciones principales conduce a la figura 7.2 

Se observa que las caracterfsticas mas proximas son la 2 y la 5. Las elecciones de los evalu- 
adores parecen ser debidas a dos dimensiones. La primera explica el 0,75/ (0,75+0,50+0, 17)=52, 83% 
de la variabilidad y la segunda el 35%. La primera dimension tiene en cuenta las similitudes 
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Figura 7.2: Proyeccion de las caracteristicas de los productos 

aparentes por las elecciones de las personas: las caracteristicas c3 y c4 son elegidas por la 
misma persona y por nadie mas, por lo que estas caracteristicas aparecen juntas en un ex- 
tremo. En el lado opuesto aparecen la cl y c6, que son elegidas por la misma persona, y las 
c2 y c5 que son elegidas por personas que tambien eligen la c6. En la segunda dimension las 
caracteristicas ext-remas son las cl y c2. 

7.2.2 Proyeccion de las columnas 

Podemos aplicar a las columnas de la matriz F un analisis equivalente al de las filas. Las 
columnas seran ahora puntos en R 1 . Llamando 

c = F'l 

al vector de frecuencias relativas de las columnas y D c a la matriz diagonal que contiene 
estas frecuencias relativas en la diagonal principal, de acuerdo con la seccion anterior la 
mejor representation de los J puntos (columnas) en un espacio de dimension menor, con la 
metrica y 2 conducira, por simetria, a estudiar la matriz DyF'Dy 1 2 . Observemos que, si 
ahora consideramos la matriz F' y volvemos al problema de representarla por filas (que es 
equivalente a representar F por columnas), el problema es ident-ico al que hemos resuelto en 
la seccion anterior. Ahora la matriz que contiene las frecuencias relativas de las filas F' es 
D c y la que contiene la de las columnas es Dp Intercambiando el papel de estas matrices, 
las direcciones de proyeccion son los vectores propios de la matriz 

ZZ' = DJ 1/2 FD“ 1 F , Dj 1/2 (7.13) 

donde Z es la matriz / x J dehnida por (7.10). Como Z'Z y ZZ ; tienen los mismos valores 
propios no nulos, esa matriz tendra tambien un valor propio unidad ligado al vector propio 
1. Esta solucion trivial no se considera. Llamando b al vector propio ligado al mayor valor 
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propio distinto de la unidad de ZZ'. la mejor representation de las columnas de la matriz en 
un espacio de dimension uno vendra dada por 

y c (b)= Y'b = D^F'DJ^b (7.14) 

y, analogament-e, la mejor representation en dimension dos de las columnas de la matriz 
vendra dada por las coordenadas definidas por las filas de la matriz 

c c = y'b 2 = D; 1 F , D i : 1/2 B 2 

donde B 2 = [b 1 b 2 ] contiene en columnas los dos vectores propios ligados a los valores propios 
mayores de ZZ y menores que la unidad. La matriz C c es J X 2 y cada fila es la mejor 
representation de las columnas de la matriz F en un espacio de dos dimensiones. 

7.2.3 Analisis Conjunto 

Dada la simetrfa del problema conviene representar conjuntamente las filas y las columnas 
de la matriz. Observemos que las matrices Z' Z y Z Z' tienen los mismos valores propios no 
nulos y que los vectores propios de ambas matrices que corresponden al mismo valor propio 
estan relacionados. En efecto, si a* es un vector propio de Z Z ligado al valor propio A, : 


Z'Za, 


A^a, 


entonces, multiplicando por Z 


ZZ'(Zaj) = Aj(Zaj) 

y obtenemos que b, = Za, es un vector propio de ZZ' ligado al valor propio A*. Una manera 
rapida de obtener estos vectores propios es calcular direct-amente los vectores propios de la 
matriz de dimension mas pequena, Z'Z o ZZ', y obtener los otros vectores propios como 
Za; o Z b,. Alternativamente podemos utilizar la descomposicion en valores singulares de la 
matriz Z o Z ', estudiada al introducir los biplots en el capi't-ulo anterior. Esta descomposicion 
aplicada a Z es 


Z = B,D r A' r = A, 1/2 b,a' 

i= 1 

donde B r contiene en columnas los vectores propios de ZZ', A r los de Z'Z y D r es digonal y 
contiene los valores singulares, A/ , o rafces de los valores propios no nulos y r = min(J, J). 
Entonces la representation de las filas se obtiene con (7.12) y la de las columnas con (7.14). 
La representation de la matriz Z con h dimensiones ( habit ualmente h = 2) implica aproximar 
esta matriz mediant-e Z/, = B/,D/,A' /( . Esto es equivalents, por (7.10), a una aproximacion a 
la tabla de contingencia observada mediant-e: 

F,- D} /2 Z fi D l' 2 , 


(7.15) 
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y una forma de juzgar la aproximacion que estamos utilizando es reconstruir la tabla de 
contingencia con esta expresion. 

Si deseamos eliminar el valor propio unidad desde el principio, dado cpie no aparta in- 
formation de interes, podemos reemplazar la matriz F por F— F e , donde F e es la matriz de 
frecuencias esperadas que viene dada por 



n 


Puede comprobarse que la matriz F— F e tiene rango r — 1, y ya no tiene el valor propio igual 
a la unidad. 

La proportion de variabilidad explicada por cada dimension se calcula como en com- 
ponent-es principales descartando el valor propio igual a uno y tomando la proportion que 
represent a cada valor propio con relation al resto. 

En resumen, el analisis de correspondencias de una tabla de contingencia de dimensiones 
/ x J se realiza en los pasos siguientes 

(1) Se calcula la tabla de frecuencias relat-ivas, F. 

(1) Se calcula la tabla estandarizada Z, de frecuencias relat-ivas las mismas dimensiones 
de la tabla original, / x J, dividiendo cada celda de F por la rafz de los t-ot-ales de su fila y 
columna, z tj = { / y'fi.fj } • 

(2) Se calculan los h (normalmente h — 2) vectores propios ligados a valores propios 
mayores, pero distint-os de la unidad, de las matriz de menor dimension de las ZZ' y ZZ. Si 
obt-enemos lo vectores propios a* de Z Z. los b, de ZZ' se obt-ienen por b, = Za,. Analoga- 
ment-e si se obt-ienen los b, de ZZ a* = Z'b,. Las I filas de la matriz se presentaran como 
/ punt-os en Jr 1 y las coordenadas de cada fila vienen dadas por 

C f = DJ 1/2 ZA 2 

donde A 2 tiene en columnas los dos vectores propios de Z Z. Las J columnas se represent ar an 
como J punt-os en 'ft 1 ' y las coordenadas de cada columna son 

C c = d; 1/2 z'b 2 

Ejemplo 7.3 Vamos a representar conjuntamente las filas y las columnas de la m.atriz de 
los colores. La figura 7.3 presenta esta representacion. Se observa que el grafico describe de 
m.anera clara la relacion entre arnbas variables. La dimension principal gradua la tonalidad 
de claro a oscuro y la segunda separa los castanos de los casos m.as extremos. 

Es importante calcular conjuntamente los vectores propios para evitar problem, as de sig- 
nos, ya sea calculando los vectores propios de una matriz y obteniendo los otros como producto 
por la matriz Z o bien a traves de la descomposicion en valores singulares. La razon es que 
si v es un vector propio tambien lo es -v y al calcular separadamente las coordenadas y su- 
perponerlas podem.os obtener un resultado como el que se presenta en la figura l.j . En esta 
figura se han calculado separadamente las dos representaciones y luego se han superpuesto. 
El lector puede comprobar que si cam.biam.os de signo las coordenadas del eje de ordenadas 
se obtiene la representacion de la figura (7.3). Estos problem, as de signos se evitan calculado 
los vectores conjuntamente. 
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Figura 7.3: Representation de los colores de ojos y cabello para los escolares escoceses. 


Figura 7.4: 
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7.3 LA DISTANCIA JI-CUADRADO 

El contraste de independence entre las variables fila y columna en una t-abla de contingencia 
/ x J se realiza con la estadfstico 


* 2 = £ 


(fr. observadas - fr. esperadas) 2 
fr. esperadas 


que, en la hipotesis de independencia, sigue una distribution y 2 con (J — 1) x ( J — 1) grados 
de libert-ad. De acuerdo con la notation anterior, la frecuencia esperada en cada celda de la 
fila i, suponiendo independencia de filas y columnas, se obt-endra repartiendo el total de la 
fila, nf, . porporcionalmente a la frecuencia relat-iva de cada columna, f.j. Por ejemplo, la 
frecuencia esperada de la primera casilla de la t-abla 5.1 se obtendra multiplicando el numero 
total de element-os de la fila, 1580, por la proportion de personas rubias sobre el total, 
1455/5387. Por tanto, el est-adi'st-ico X 2 para contrastar la independencia puede escribirse: 


* 2 = ££ 

i=i j = i 


(nfjj - nfj.f.j 
nfi.f.j 


(7.16) 


donde /,. = JE =1 fij es frecuencia relat-iva de la fila i y f h = JE =1 fij d e columna j. 
Como 

(■ nfij - nfi.f.j ) 2 _ nfi . if }j - fi.f.j) 2 


nfi.f.j f.j fi 2 

la expresion del est-adi'st-ico X 2 puede tambien escribirse como : 


X 2 = n 


i j 


£/•■£( 


u 

fi. 



(7.17) 


En esta representation la distribution condicionada de las frecuencias relativas de cada 
fila, | j 2 - j , se compara con la distribution media de las filas {f.j} , y cada coordenada se 
pondera inversamente a la frecuencia relat-iva que exist-e en esa columna. Se suman luego 
t-odas las filas, pero dando a cada fila un peso tant-o mayor cuant-o mayor es su frecuencia, 
nfi.. 

Vamos a ver que esta representation es equivalent-e a calcular las distancias entre los 
vectores de la matriz de frecuencias relativas por filas, R , definida en (7.1) si medimos la 
distancia con la metrica y 2 . Consideremos los vectores r( , filas de la matriz R . La media 
de estos vectores es 

TLifpx 

Ei= i w i 

donde los w t son coeficientes de ponderacion. La media aritmetica se obtiene con w t — 1, 
dando a t-odas las filas el mismo peso. Sin embargo, en est-e caso esta poderacion no es 
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conveniente, porque debemos dar mas peso a las filas que contengan mas datos. Podemos 
ponderar por la frecuencia relativa de cada fila, w t — ft, y entonces )T) ^ ft = 1. Como 

las frecuencias relativas de las filas vienen dadas por el vector columna Dyl, tenemos que 

r = R'D f l 


y utilizando (7.1) 

r = F'D/D/l = F'l = c 

y el valor medio de las filas viene dado por el vector cuyos componentes son las frecuencias 
relativas de las columnas. La distancia de cualquier vector de fila, r. ( , a su media, c, con la 
metrica y 2 sera 


)'d; 


donde la matriz D c 1 se obtuvo en (7.3) para construir la distancia y 2 . La suma de todas estas 
distancias, ponderadas por su importancia, que se conoce como inercia total de la t.abla, es 


j t = Y1 - <0'D C X (L - c) 

i 1 


y esta expresion puede escribirse como 


i= 1 j = 1 ' 

y si comparamos con (7.17) vemos que la inercia total es igual a X 2 fn. 

Se demuestra que la inercia total es la suma de los valores propios de la matriz Z'Z 
eliminado el uno. Por tanto, el analisis de las filas (o de las columnas ya que el problema es 
simetrico) puede verse como una descomposicion de los componentes del estadfstico X 2 en 
sus fuentes de variacion. 

La distancia y 2 tiene una propiedad importante que se conoce como el principio de equiv- 
alencia distribucional. Esta propiedad es que si dos filas tienen la misma estructura relativa, 
fij / fi. y las unimos en una nueva fila unica, las distancias entre las restantes filas permanecen 
invariables. Esta misma propiedad por simetrfa se aplica a las columnas. Esta propiedad 
es importante, porque asegura una cierta invarianza del procedimiento ante agregaciones o 
desagregaciones irrelevantes de las categorias. Para demostrarlo, consideremos la distancia 
y 2 entre las filas ay b 


_ fbj\ 2 1 
jrCfa. fb. f.j. 

es claro que esta distancia no se modifica si unimos dos filas en una, ya que esta union no 
va a afect-ar a las frecuencias fij/ fi. ni tampoco a f.j.. Vamos a comprobar que si unimos 
dos filas con la misma estructura la distancia de la nueva fila al resto es la misma que las 
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de las filas originales. En efecto, supongamos que para las filas 1 y 2, se verifica que para 

3 = 1 ,-,J 


hi 

h. 


hj 

h. 


9j 


entonces, si unimos est-as dos filas en una nueva fila, se obtiene que, para la nueva fila 


fij + fij 

7TT7Y® 

y su dist-ancia a cualquier ot.ra fila permanecera invariable. 

Esta propiedad garantiza que no perdemos nada al agregar categon'a homogeneas ni 
podemos ganar nada por desagregar una categon'a homogenea. 


Ejemplo 7.4 Se han contabilizado los pesos y las alturas de 100 estudiantes universitarios 
y se han formado 4 categorias tanto para el peso como para la altura. Para el peso, las 
categorias se denotan PI, de 51 a 60 k., P2, de 61 a 70 k., P3, de 71 a 80 k. y P4, de 81 a 
90 k. Para la altura se denotan Al, de 151 a 160 cm,., A2, de 161 a 170 cm,., AS, de 171 a 
180 cm. y A4, de 181 a 190 cm. La siguiente tabla de contingencia muestra las frecuencias 
de cada grupo: 


Peso /Altura 

Al 

A2 

AS 

A4 

PI 

15 

8 

3 

0 

P2 

10 

15 

7 

2 

PS 

2 

7 

17 

3 

Pj 

0 

2 

3 

6 


Realizar proyecciones por filas, por columnas y conjunta de filas y columnas. Comprobar 
como las proyecciones por filas y por columnas separan claramente las categorias, pero que 
la proyeccion conjunta asocia claramente cada categoria de un peso con la de una altura. 


Para la proyeccion por filas, la variable Y 

queda: 




" 0.1110 

0.0544 

0.0211 

0 

Y = RD C ’ = 

0.0566 

0.0780 

0.0376 

0.0177 

0.0133 

0.0427 

0.1070 

0.0312 


0 

0.0321 

0.0498 

0.1645 


Los tres valores propios y vectores propios diferentes de uno de esta matriz son: 


valor propio 
0.3717 -0.6260 

0.1401 -0.2974 

0.0261 0.4997 


vector propio 
-0.1713 0.3673 0.6662 
-0.0064 0.6890 -0.6610 
-0.8066 0.3007 0.0964 
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La proyeccion por filas es: 



Para las columnas, los tres valores propios y vectores propios diferentes de uno de esta matriz 
son: 


valor propio 


vector 

propio 


0.3717 

-0.5945 

-0.2216 

0.3929 

0.6656 

0.1401 

-0.2568 

-0.0492 

0.7034 

-0.6609 

0.0261 

0.5662 

-0.7801 

0.2466 

0.1005 


La proyeccion por columnas es: 

0.04 
0.02 
0 

- 0.02 
- 0.04 
- 0.06 
- 0.08 
- 0.1 

- 0.08 - 0.06 - 0.04 - 0.02 0 0.02 0.04 0.06 0.08 0.1 0.12 
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El resultado de la proyeccion conjunta es el siguiente donde alturas y pesos quedan asociados: 



Ejemplo 7.5 Del conjunto de datos MUNDODES, se ha tornado la esperanza de vida de 
hombres y de mujeres. Se han formado 4 categorias tanto para la mujer como para el hornbre. 
Se denotan por Ml y HI, a las esperanzas entre menos de 41 a 50 ahos, M2 y H2, de 51 a 
60 ahos, M3 y H3, de 61 a 70, y M4 y H4, para entre 71 a mas de 80. La siguiente tabla de 
contingencia muestra las frecuencias de cada grupo: 


Mujer /Hornbre 

HI 

H2 

H3 

H4 

Ml 

10 

0 

0 

0 

M2 

7 

12 

0 

0 

M3 

0 

5 

15 

0 

M4 

0 

0 

23 

19 


Realizar proyecciones por filas, por columnas y conjunta de filas y columnas. Comprobar 
que en la proyeccion por filas las categorias estan claramente separadas y que en el caso del 
hornbre, las dos ultimas categorias estan muy cercanas. Comprobar en la proyeccion conjunta 
la cercania de las categorias H3 con M3 y M4- 

Para la proyeccion por filas, la variable Y queda: 

0.2425 0 0 0 

0.0894 0.1532 0 0 

0 0.0606 0.1217 0 

0 0 0.0888 0.1038 
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Los tres valores propios y vectores propios diferentes de uno de esta matriz son: 


valor propio 
0.8678 0.7221 

0.3585 - 0.5249 

0.1129 - 0.1274 


vector propio 
0.3551 - 0.4343 - 0.4048 
0.7699 0.0856 - 0.3528 

0.3072 - 0.6217 0.7091 


La proyeccion por filas es: 



Para las columnas, los tres valores propios y vectores propios diferentes de uno de esta matriz 
son: 


valor propio 
0.8678 - 0.5945 

0.3585 - 0.6723 

0.1129 - 0.2908 


vector propio 
- 0.5564 0.1503 0.5606 

0.5172 0.4265 - 0.3141 

0.4628 - 0.7588 0.3543 
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La proyeccion por columnas es: 

0.15 
0.1 
0.05 
0 

- 0.05 
- 0.1 
- 0.15 
- 0.2 

- 0.2 - 0.15 - 0.1 - 0.05 0 0.05 0.1 0.15 

El resultado de la proyeccion conjunta es: 

0.15 
0.1 
0.05 
0 

- 0.05 
- 0.1 
- 0.15 
- 0.2 

- 0.2 - 0.15 - 0.1 - 0.05 0 0.05 0.1 0.15 




7.4 ASIGNACION DE PUNTUACIONES 

El analisis de correspondencias puede aplicarse tambien para resolver el siguiente problema. 
Supongamos que se desea asignar valores numericos y c (l), ...,y c (J) a las columnas de una 
matriz F de observaciones, o, en otros terminos, convertir la variable en columnas en una 
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variable numerica. Por ejemplo, en la tabla (7.3) el color del cabello puede considerarse una 
variable continua y es interesante cuantificar las clases de color definidas. Una asignacion 
de valores numericos a las columnas de la tabla inducira automaticamente unos valores 
numericos para las categon'as de la variable en filas. En efecto, podemos asociar a la fila i el 
promedio de la variable y c en esa fila, dado por: 

/.x / 710 x 

Vi = = 2^ r b1/cU) (7.18) 

2~/j = 1 Jij j = 1 

donde r t] = fijffi. es la frecuencia relativa condicionada a la fila. El vector de valores asf 
obtenido para todas las filas sera un vector / x 1 dado por: 


y f = Ry c = D r 1 Fy c (7.19) 

Analogamente, dadas unas puntuaciones yf para las filas, las puntuaciones de las colum- 
nas pueden estimarse igualmente por sus valores medios en cada columna, obteniendo el 
vector J x 1: 


y c = D^F'yr (7.20) 

Escribiendo conjuntamente (7.19) y (7.20) resultan las ecuaciones: 

y f = D/F D c ^F'yr (7.21) 

y c = D^F'D^Fy, (7.22) 

que indican que las puntuaciones yf , y y c se obtienen como vectores propios de est-as matrices. 
Observemos que estas puntuaciones admiten una solucion trivial tomando y c = (l,...,l)j, 
yf = (1, ..., 1)). En efecto, las matrices D,: 'F' y D /F suman uno por filas, ya que son 
de frecuencias relativas. Esta solucion equivale en (7.21) y (7.22) al valor propio 1 de la 
correspondiente matriz. Para encontrar una solucion no trivial al problema, vamos a exigir 
que ambas ecuaciones se cumplan aproximadamente introduciendo un coeficiente de propor- 
cionalidad, A < 1, pero que queremos sea tan proximo a uno como sea posible. Multiplicando 
(7.19) por Dy 2 y (7.20) por D l J 2 e introduciendo este coeficiente de proporcionalidad ten- 
emos que 


A(Dfyt) 


D7 1/2 F 


(7.23) 


A(D2 2 y c ) = D c - 1/2 F , DJ 1/2 (Dy 2 y f ) 


(7.24) 
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Para resolver estas ecuaciones, llamemos b = D| J y f . a = D'/ 2 y c y Z = D ; 1 2 F Dj 1 / 2 . 
Sust.ituyendo estas definiciones en (7.23) y (7.24), obtenemos Ab = Za y Aa = Z'b y sustiuyen- 
do una de estas ecuacione en la otra se obtiene 


A 2 b = ZZ'b (7.25) 


A 2 a = Z'Za (7.26) 

Estas ecuaciones muestran que b y a son vectores propios ligados al valor propio A 2 de 
las matrices ZZ' y Z'Z. Los vectores de puntuaciones se obtendran despues a partir de la 
definition de b = Dj/ 2 y f , con lo que resulta: 


y f = DJ 1/2 b (7.27) 

y co mo a = D;!/ 2 y c , 

y c = D“ 1//2 a (7.28) 

Las matrices ZZ ; o Z'Z siempre admite el valor propio 1 ligado a un vector propio 
(1, ..., 1)'. Tomando como a y b los vectores propios ligados al segundo mayor valor propio, 
A < 1, de estas matrices obtenemos las puntuaciones optimas de filas y columnas. 

Podemos obt.ener una representation grafica de las filas y columnas de la matriz de la 
forma siguiente: si sustituimos las puntuaciones y c dadas por (7.28), que se denominan a 
veces ’’factores” asociados a las columnas, en la ecuacion (7.19) y escribimos 


y f (a) = Dj'FD^a 

obtenemos las proyecciones de las filas encontradas en (7.12). Analogamente, sustituyendo 
los ’’factores” yf asociados a las filas en (7.20) y escribiendo 


y c (b)= DpF'D^b 

encontramos las proyecciones de las columnas de (7.14). 

Concluimos que el problema de asignar puntaciones de una forma consist-ente a las filas 
y a las columnas de una tabla de contingencia, es equivalente al problema de encontrar 
una representation optima en una dimension de las filas y las columnas de la matriz. En 
otros terminos, el analisis de correspondencia proporciona en la primera coordenada de las 
filas y columnas una forma consistente de asignar puntuaciones numericas a las filas y a las 
columnas de la tabla de contingencia. 



7.4. ASIGNACION DE PUNTUACIONES 


223 


Ejemplo 7.6 La tabla adjunt.a indica las puntuaciones alia (A), m.edia (M) y baja (B) 
obtenidas por 4 profesores Pi , ..., P 4 , que han sido evaluados por un total de 49 estudiantes. 
iQue puntuaciones habria que asignar a las categorias alt-a, media y baja? 4y a los profe- 
sores? 



A 

M 

B 


Pl 

2 

6 

2 

10 

P 2 

4 

4 

4 

12 

P 3 

1 

10 

4 

15 

Pa 

7 

5 

0 

12 


14 

25 

10 

49 


Entonces la matriz Z = D c l P es 


169 

.380 

.200 

309 

.230 

.365 

069 

.516 

.327 

540 

.288 

0 


Vamos a obtener la descomposicion en valores singulares de esta matriz. Es : 


.452 

.166 

-.249 

.495 

. -004 

.869 

.553 

.581 

-.317 

.495 

-.797 

-.288 


que conduce a las variables 

y = D] 1/2 b, - 

z = D-‘/ 2 a = 


' 1 


' .534 -.816 .221 

.45 


.714 .296 -.634 

.22 


.452 .497 .741 


143 

.052 

-.079 

143 

-.001 

.251 

143 

.150 

-.082 

143 

-.230 

-.083 


143 

-.218 

.059 

143 

.059 

-.127 

143 

.157 

.234 


La mejor puntuacion -en el sent-ido de la maxima discrimination- corresponde a (mul- 
tiplicando por -1 el segundo vector propio para que los numeros mas altos correpondan a 
puntuaciones altas y favorecer la interpretation) 218, -059, -157 y a los profesores (multi- 
plicando por -1 el segundo vector propio, para ser consistentes con el cambio anterior) 230 
-150 001 -052. Si queremos trasladar est-as puntuaciones a una escala entre cero y diez, 
escribiremos 


y = 


x — X 


min 


■^max *^min 


x 10 
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0.16 

0.14 

0.12 

0.1 

0.08 

0.06 

0.04 

0.02 

0 

- 0.02 


-0.04 L_ 
- 0.1 


+ Baja 


P3 + 


- Medio 
0.05 


+ P4 


Figura 7.5: Proyeccion de los profesores y de las puntuaciones 


y las puntuaciones se convierten en 10, 7.4 y 0 y. Las evaluaciones de los profesores al 
pasarlas a la escala de cero a diez se convierten en 10, 0, 3.98, 2.57. La figura 7.5 presenta 
la proyeccion de los profesores y de las categori'as sobre el piano de mejor representacion. 


Ejemplo 7.7 La tabla de contingencia siguiente indica las puntuaciones, muy buena (MB), 
buena (B), regular (R) o mala (M) obtenidas por las 5 peliculas nominadas a los Oscars a 
la mejor pelicula del ano 2001 que han sido evaluadas por un total de 1 00 criticos de cine de 
todo el mundo. j,Que puntuaciones habria que asignar a las categorias? £y a las peliculas? 


Peliculas /Puntuacion 

M 

R 

B 

MB 


PI 

1 

7 

2 

10 

20 

P2 

0 

3 

2 

15 

20 

P3 

2 

7 

2 

9 

20 

P4 

0 

1 

3 

16 

20 

P5 

1 

3 

3 

13 

20 


4 

21 

12 

63 

100 


' 0.1118 

0.3416 

0.1291 

0.2817 ' 

0 

0.1464 

0.1291 

0.4226 

0.2236 

0.3416 

0.1291 

0.2535 

0 

0.0488 

0.1936 

0.4507 

0.1118 

0.1464 

0.1936 

0.3662 


La matriz P es: 
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Las variables que se obtienen son: 

" 0.1000 
0.1000 

y = Dr~^b = 0.1000 

0.1000 
0.1000 


-0.0934 

-0.1124 

0.1365 

0.0000 

0.0721 

-0.1208 

-0.1234 

0.0707 

-0.1356 

0.0707 

-0.1078 

-0.0707 

0.1304 

0.0334 

0.0435 

-0.1414 

0.0266 

0.1291 

0.0512 

0.1414 



' 0.1000 

-0.2382 

0.3739 

-0.2085 

1 

0.1000 

-0.1580 

-0.1053 

0.0396 

2 a, = 

0.1000 

0.0369 

0.1282 

0.2357 


0.1000 

0.0608 

-0.0130 

-0.0448 


La mejor puntuacion para las categon'as corresponde a -0.2382, -0.1580, 0.0369 y 0.0608. 
Para las peh'culas (multiplicando por -1 el segundo vector propio) a -0.0934, 0.0721, -0.1356, 
0.1304 y 0.0266. Si trasladamos todas las puntuaciones entre cero y diez, obtenemos para 
las categorias los valores 0, 2.6823, 9.2007 y 10. Para las cinco peh'culas tenemos 1.5864, 
7.8082, 0, 10 y 6.0977. La proyeccion conjunta muestra como la pelicula mas cercana a la 
puntuacion muy buena (MB) es P4: 


7.5 Lecturas complement arias 

El analisis de correspondencias puede extenderse para estudiar tablas de cualquier dimen- 
sion con el nombre de analisis de correspondencias multiple. En este enfoque se utiliza la 
descomposicion en valores singulares para aproximar simultaneamente todas las tablas bidi- 
mensionales que pueden obtenerse de una tabla multidimensional. Una buena introduccion 
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desde el punto de vista de componentes principales con la metrica ji-cuadrado se encuentra 
en Gower y Hand (1995). Present aciones de esta tecnica como extension del analisis de 
correspondencias present-ado en este capi'tulo se encuentran en Greenacre (1984) y Lebart 
et al (1984). La literatura sobre analisis de correspondencias esta sobre t-odo en fiances, 
vease Lebart et al (1997) y Saporta (1990). En espanol Cuadras (1990) y Escofier y Pages 
(1990). Jackon (1991) contiene una sucint-a descripcion del met-odo con bastantes referencias 
hist-bricas y actuales. Lebart, Salem y Becue (2000) presenta interesant-es aplicaciones del 
analisis de correspondencias para el estudio de textos. 

Ejercicios 7 

7.1 Demostrar que la traza de las matrices Z'Z y ZZ' es la misma. 

7.2 Demostrar que el centro de los vect-ores r, de las filas, donde cada fila tiene un peso 
f es el vector c de las frecuencias relat-ivas de las columnas (calcule r = fiAi — R/D/l) 

7.3 Demostrar que dada una matriz de dat-os X donde cada fila tiene un peso W la 
operacion que conviert-e a esta matriz en ot-ra de media cero es X = (I — 11 / W)X. 

7.4 Demostrar que la suma de las distancias de Mahalanobis ponderadas de las filas es 
igual a la de las columnas, donde la suma de las filas es )G / Jr, — c) , D“ 1 (r i — c). 

7.5 Supongamos que estudiamos dos caracterfsticas eu los element-os de un conjunto que 
pueden darse en los niveles alt-o, medio y bajo en ambos casos. Si las frecuencias relativas 
con las que aparecen estos niveles son las mismas para las dos caracterfsticas, indicar la 
expresion de la representacion de las filas y columnas en el piano bidimensional. 

7.6 En el ejemplo 7.5 /.que podemos decir de la puntuacion optima para cuantificar las 
filas y columnas? 

7.7 Indicar como afect-a a la representacion de filas y columnas que la tabla de contin- 
gencias sea simetrica, es decir, /J = f ]t . 

7.8 Justificar que la variable , r,c A n l es aproximadament-e una variable normal est-andar. 

Y riCj /n 

7.9 Demostrar que si definimos la matriz X con elemento generico x i3 = ( fij—fi.f.j ) / \J fi.f .j 
la matriz X'X tiene los mismos valores vectores propios que la Z'Z, donde z t] = fij/ yj fi.f .j 
salvo el valor propio 1 que aparece en Z'Z, y no en X'X . 
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8.1 FUNDAMENTOS 

El analisis de congiomerados (clusters) tiene por objeto agrupar element-os en grupos ho- 
mogeneos en funcion de las similitudes o similaridades entre ellos. Normalment.e se agrupan 
las observaciones, pero el analisis de congiomerados puede tambien aplicarse para agrupar 
variables. Estos met-odos se conocen tambien con el nombre de metodos de clasificacion 
automatica o no supervisada, o de reconocimiento de patrones sin supervision. El nombre 
de no supervisados se aplica para distinguirlos del analisis discriminante, que estudiaremos 
en el capftulo 13. El analisis de congiomerados estudia t-res tipos de problemas: 

Partition de los datos. Disponemos de dat-os que sospechamos son het-erogeneos y se 
desea dividirlos en un numero de grupos prefijado, de manera que: 

(1) cada elemento pert-enezca a uno y solo uno de los grupos; 

(2) t-odo elemento quede clasificado; 

(3) cada grupo sea internamente homogeneo. 

Por ejemplo, se dispone de una base de datos de compras de clientes y se desea hacer 
una tipologfa de estos clientes en funcion de sus paut-as de consumo. 

Construction de jerarquias. Deseamos estructurar los element-os de un conjunto de forma 
jerarquica por su similitud. Por ejemplo, tenemos una encuesta de atributos de dist-int-as 
profesiones y queremos ordenarlas por similitud. Una clasificacion jerarquica implica que los 
dat-os se ordenan en niveles, de manera que los niveles superiores contienen a los inferiores. 
Est-e tipo de clasificacion es muy frecuentes en biologfa, al clasificar animales, plant-as etc. 
Estrict-ament-e, est-os metodos no definen grupos, sino la estructura de asociacion en cadena 
que pueda exist-ir entre los element-os. Sin embargo, como veremos, la jerarqufa construida 
permite obtener tambien una particion de los dat-os en grupos. 

Clasificacion de variables. En problemas con rnuchas variables es int-eresant-e hacer 
un estudio exploratorio inicial para dividir las variables en grupos. Este est-udio puede 
orientarnos para plant-ear los modelos formales para reducir la dimension que estudiaremos 
mas adelante. Las variables pueden clasificarse en grupos o estructurarse en una jerarqufa. 

Los met-odos de particion utilizan la matriz de dat-os, pero los algoritmos jerarquicos 
ut-ilizan la matriz de distancias o similitudes ent-re element-os. Para agrupar variables se 
parte de la matriz de relacion entre variables: para variables continuas suele ser la matriz de 
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correlation, y para variables discretas, se construye, como veremos, a partir de la dist-ancia 
ji-cuadrado. 

Vamos a estudiar en primer lugar los metodos de particion 

8.2 METODOS CLASICOS DE PARTICION 

8.2.1 Fundamentos del algoritmo de k-medias 

Supongamos una muestra de n elementos con p variables. El objetivo es dividir esta muestra 
en un numero de grupos prefijado, G. El algoritmo de k-medias (que con nuestra notation 
deberfa ser de G— medias) requiere las cuatro etapas siguientes : 

(1) Seleccionar G puntos como centros de los grupos iniciales. Est-o puede hacerse: 

a) asignando aleatoriamente los objetos a los grupos y tomando los centros de los 
grupos asf formados; 

b) tomando como centros los G puntos mas alejados entre si' ; 

c) construyendo los grupos con information a priori, o bien seleccionando los centros 
a priori. 

(2) Calcular las distancias euch'deas de cada elementoa al centro de los G grupos, y asignar 
cada elemento al grupo mas proximo. La asignacion se realiza secuencialmente y al 
iutroducir un nuevo elemento en un grupo se recalculan las coordenadas de la nueva 
media de grupo. 

(3) Definir un criterio de optimalidad y comprobar si reasignando uno a uno cada elemento 
de un grupo a otro mejora el criterio. 

(4) Si no es posible mejorar el criterio de optimalidad, terminal - el proceso. 

8.2.2 Implementation del algoritmo 

El criterio de homogeneidad que se utiliza en el algoritmo de k-medias es la sum, a de 
cuadrados dentro de los grupos (SCDG) para todas las variables, que es equivalents a la 
suma ponderada de las varianzas de las variables en los grupos: 

G p rig 

SCDG= EEE^-%) 2 (8-D 

g = i j = i *= i 

donde Xy 9 es el valor de la variable j en el elemento i del grupo g y x 3g la media de esta 
variable en el grupo. El criterio se escribe 

G p 

min SCDG = min n g 4 (8.2) 

y-i j=i 
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donde n g es el numero de element-os del grupo g y sj g es la varianza de la variable j en 
dicho grupo. La varianza de cada variable en cada grupo es clarament-e una medida de la 
heterogeneidad del grupo y al minimizar las varianzas de t-odas las variables en los grupos 
obt-endremos grupos mas homogeneos. Uu posible criterio alternativo de homogeneidad 
serfa minimizar las dist-ancias al cuadrado entre los centros de los grupos y los puutos que 
pert-enecen a ese grupo. Si medimos las distancias con la norma euch'dea, est-e criterio se 
escribe: 

G rig G n g 

min “ x <?) / ( x *<? - x <?) = X! ^ 9) 

3=1 i= 1 3=1 i= 1 


donde d 2 (i. g) es el cuadrado de la distancia euch'dea entre el elemento i del grupo g y su 
media de grupo. Es facil comprobar que ambos crit-erios son ident-icos. Como un escalar es 
igual a su traza, podemos escribir este ultimo criterio como 


mm 


G rig 

EE 

3=1 i=l 


tr \d 2 (i, g)\ = min tr 


G rig 

EE< 

L.'/ 1 i- 1 


l 9 


x g )(x ig - X 


y llamando W a la matriz de suma de cuadrados dentro de los grupos, 


G n g 

W = X! “ X s)( X «? - X <?)' 
3=1 1=1 


teenmos que 


mintr(W) = min SCDG 

Como la traza es la suma de los element-os de la diagonal principal ambos criterios coinciden. 
Est-e criterio se denomina criterio de la traza, y fue propuesto por Ward (1963). 

La maximizacion de este criterio requerin'a calcularlo para t-odas las posibles part-iciones, 
labor clarament-e imposible, salvo para valores de n muy pequenos. El algoritmo de k - medias 
busca la particion optima con la restriction de que en cada iteration solo se permite mover 
un element-o de un grupo a ot-ro. El algoritmo funciona como sigue 

(1) Partir de una asignacion inicial 

(2) Comprobar si moviendo algiin elemento se reduce W. 

(3) Si es posible reducir W mover el elemento, recalcular las medias de los dos grupos 
afect-ados por el cambio y volver a (2). Si no es posible reducir W terminar. 

En consecuencia, el result-ado del algortimo puede depender de la asignacion inicial y 
del orden de los element-os. Conviene siempre repetir el algoritmo desde dist-int-os valores 
iniciales y permutando los element-o de la muestra. El efecto del orden de las observaciones 
suele ser pequeno, pero conviene asegurarse en cada caso de que no esta afect-ando. 

El criterio de la traza t-iene dos propiedades importantes. La primera es que no es 
invariante ante cambios de medida en las variables. Cuando las variables vayan en unidades 
dist-int-as conviene est-andarizarlas, para evit-ar que el result-ado del algoritmo de k-medias 
dependa de cambios irrelevant-es en la escala de medida. Cuando vayan en las mismas 
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unidades suele ser mejor no estandarizar, ya que es posible que una varianza mucho mayor 
que el resto sea precisamente debida a que existen dos grupos de observaciones en esa variable, 
y si estandarizamos podemos ocultar la presencia de los grupos. Por ejemplo, la figura 8.1 
muestra un ejemplo donde la est-andarizacion puede hacer mas difi'cil la identificacion de los 
grupos. 


Figura 8.1: La estandarizacion puede dificultar la identificacion de los grupos. 

La segunda propiedad del criterio de la traza es que minimizar la distancia eucfi'dea 
produce grupos aproximadamente esfericos. Las razones para este hecho se estudiaran en el 
capi'tulo 15. Por otro lado este criterio esta pensado para variables cuantitativas y, aunque 
puede aplicarse si existe un pequeno numero de variables binarias, si una parte important^ 
de las variables son atributos, es mejor utilizar los metodos jerarquicos que se describen a 
continuacion. 


8.2.3 Numero de grupos 


En la aplicacion habitual del algoritmo de k-medias hay que fijar el numero de grupos, G. 
Es claro que este numero no puede estimarse con un criterio de homogeneidad ya que la 
forma de conseguir grupos muy homogeneos y minimizar la SCDG es hacer tant-os grupos 
como observaciones, con lo que siempre SCDG=0. Se han propuesto distintos metodos para 
seleccionar el numero de grupos. Un procedimiento aproximado que se utiliza bast-ante, 
aunque puede no est-ar just-ificado en unos dat-os concret-os, es realizar un test F aproximado 
de reduction de variabilidad, comparando la SCDG con G grupos con la de G+ 1, y calculando 
la reduction proportional de variabilidad que se obt-iene aumentando un grupo adicional. El 
test es: 


SCDG(G) - SCDG(G + 1) 
SCDG(G + l)/(n - G - 1) 
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y compara la disminucion de variabilidad al aumentar un grupo con la varianza promedio. 
El valor de F suele compararse con una F con p,p(n — G — 1) grados de libertad, pero 
esta regia no est-a muy justificada porque los datos no tienen porque verificar las hipotesis 
necesarias para aplicar la distribution F . Una regia empi'rica que da resultados razonables, 
sugerida por Hartigan (1975), e implantada en algunos programas informaticos, es introducir 
un grupo mas si este cociente es mayor que 10. 

Ejemplo 8.1 La figura 8.2 presenta los datos de ruspini (fichero ruspini.dat) que incluye 
75 datos de dos variables y que se han utilizado para comparar distintos algoritmos de clasi- 
ficacion. El grafico muestra claramente cuatro grupos de datos en dos dimensiones. 


Figura 8.2: Datos de Ruspini 


La tabla 8.1 muestra el resultado de aplicar el programa de k-medias en Minitab para 
distinto numero de grupos a los datos sin estandarizar. De acuerdo con el criterio F existen 
tres grupos en los datos. Las figuras 8.3, 8.4, 8.5 y 8.6 muestran los grupos obtenidos con 
este programa. 

La tabla se ha construido a partir de la informacion proporcionada por el programa. Al 
pasar de 2 a 3 grupos hay una reduccion de variabilidad muy significativa dada por 

„ 89247 - 51154 _ _ 

~~ 51154/(75 - 4) “ 


Sin embargo al pasar de 3 a 4 grupos la reduccion no es significativa 


51154- 50017 
50017/(75 -5) 


1.59. 


El algortimo de k-m.edias implantado en minitab llevana a dividir los datos en los tras 
grupos indicados en la figura 8.4. Si aplicam.os el algoritmo a los datos estandarizados se 
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Numero de grupos 

tarnano 

SCDG(i) 

SCDG 

F 

2 

34 

43238 




40 

46009 

89247 


3 

20 

3689 




40 

46009 




15 

1456 

51154 

52.8 

4 

4 

170 




16 

2381 




15 

1456 




40 

46009 

50017 

1.59 

5 

4 

170 




5 

292 




11 

857 




40 

46009 




15 

1456 

48784 



Tabla 8.1: Tab la con la information para seleccionar el numero de grupos con el algoritmo 
de k.medias. 

obtienen de nuevo tres grupos, pero distintos: el primero esta formado por los dos conjuntos 
de puntos situados en la parte superior del grafico y los otros dos grupos por los dos inferiores. 


Figura 8.3: Division de los datos de Ruspini en dos grupos con Minitab. 

Para estudiar el funcionamiento de distintos programas hem, os aplicado el mismo analisis 
a estos datos con el programa de k-medias de SPSS. La particion en dos grupos es la misma 
con ambos programas, pero la particion en tres y cuatro grupos es distinta como muestran 
las figuras 8.7, 8.8 y 8.9. El programa SPSS produce mejores resultados que Minitab. Este 
ejemplo sugiere que antes de aceptar los resultados de un analisis de conglomerados mediante 
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Figura 8.4: Division de los datos de Ruspini en tres grupos con Minitab 


Figura 8.5: Division de los datos de Ruspini en cuatro grupos con Minitab 
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G = 2 

CO 

G = 4 

G = 5 

G = 

eh 

30 

20 

14 

15 

14 

em 

35 

22 

13 

16 

12 

mi 

509 

230 

129 

76 

83 

tm 

15 

11 

9 

9 

9 

tn 

64 

58 

37 

35 

26 

Total=MS(G) 

653 

341 

202 

151 

144 

F 


82.4 

61.5 

30.4 

6.2 


Tabla 8.2: Tabla con la informacion para seleccionar el numero de grupos con el algoritmo 
de k.medias. 

el algoritmo de K-medias conviene probar distintos punt, os de partida y distintos algoritmos. 


Ejemplo 8.2 Vamos a aplicar el algoritmo de k-medias a los datos de los parses. Se van 
a utilizar unicamente las 5 variables demograficas de MUNDODES. Comenzaremos comen- 
tando los resultados obtenidos al utilizar el programa k-medias con el programs SPSS. Para 
decidir el numero de grupos este programa nos proporciona la varianza promedio dent.ro de 
los grupos para cada variable. Por ejemplo, si G = 2, dos grupos, la segunda columna de la 
tabla 15.1 indica que la varianza promedio dent.ro de los dos grupos o no explicada para la 
variable eh es 30, para la variable em es 35, y asi sucesivamente. Este term.ino se calcula 
com.o sigue: para cada variable hacemos la descomposicion del analisis de la varianza de su 
suma de cuadrados total J2(xij — x) 2 en la variabilidad explicada, YA x i ~ x ) 2 -> donde x % es 
la media de la variable en cada grupo, y la no explicada, YA x ij ~ x i) 2 - Este ultimo term.ino 
dividido por sus grados de libertad, que son n — G proporciona la varianza promedio dent.ro 
de los grupos o no explicada. Segun la definicion La suma de estas varianzas multiplicada 
por n — G proporciona el est.adistico SCDG, com.o indica la formula (15.5). La tabla 15.1 
resume est.a informacion 

La tabla muestra que, com.o es de esperar, las varianzas promedio de las variables dism.in- 
uyen al hacer m.as grupos. La tabla muestra que la variable mi tiene mucha mas varianza que 
las dem.as, y por tanto va a tener un peso muy importante en la const, ruccion de los grupos, 
que van a hacerse principalment.e por los valores de est.a variable. La tabla de las varianzas 
muestra que el numero de grupos es cinco, ya que al aument.ar a seis la disminucion de 
las varianzas es muy pequena. Podemos contrast ar est.a intuicion calculando el est.adistico 
F dado por (8.3). Llamando MS(G) a la fila de tot, ales que sera igual a SCDG(G) / (n-G) , 
tenemos que este estadist.ico se calcula como 

(n — G)MS{G) -(n-G- 1 )MS(G + 1) 

“ MS(G + 1) 


donde n = 91 y G es el numero de grupos indicado por columnas. Por ejemplo, el contraste 
para ver si conviene pasar de dos grupos a tres sera 


F 


1.653 — 88.341 


82.45 


341 
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Figura 8.6: Division de los dat-os de Ruspini eii 5 grupos con Minitab 


Figura 8.7: Division en tres grupos de los dat-os de Ruspini con SPSS 
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Figura 8.8: Division en cuatro grupos de los datos de Ruspini con SPSS 


Figura 8.9: Division en cinco grupos de los datos de Ruspini con SPSS 
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10.0 30.0 50.0 70.0 90.0 110.0 130.0 150.0 170.0 


mortal idad infantil 


Figura 8.10: Histograma de la variable mortalidad infantil indicando la presencia de entre 
cuatro y cinco grupos de paises 


Asi se obtiene la fila de F de la tabla, y, de acuerdo con el criterio de Hartigan, escogeriamos 
cinco grupos. 


Como hemos visto que la variable mi es muy importante en la construccion de los grupos, 
la figura 15.1 presenta un histograma de esta variable. Se observa que esta variable, que va a 
tener un peso dominante en la formacion de los grupos, indica claramente la heterogeneidad 
de la muestra. En los grupos construidos el grupo con menor mortalidad infantil es el tres, 
que incluye los paises de Europa menos Albania, y el de mayor mortalidad, el dos, que incluye 
a los paises mas pobres de Africa. 


La figura 8.11 ilustra la posicion de los 5 grupos en el grafico de las dos variables mas 
influyentes y la figura 8.12 la composicion de los grupos. Se observa que el grupo 3 esta 
Jormado por la mayoria de los paises europeos, japon y norte america, el grupol incluye 
los paises europeos mas pobres, los mas ricos de latinoamerica y otros paises como China 
y Egipto. El grupo f engloba paises de desarrollo medio africanos ( como surafrica o Zaire) 
lationamericanos (Brasil) y de Asia como Arabia Saudita, India e Indonesia. Finalmente 
los grupos 5 y 2 incluye los paises menos desarrollos. 
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Figura 8.11: Representation de los grupos en el grafico de dispersion de las variables mor- 
t-alidad infantil y tasa de natalidad 


Figura 8.12: Indicacion de los pai'ses que pertenecen a cada uno de los grupos. 

Hemos repetido el analisis utilizando el programs Minitab para cinco grupos. Este pro- 
grama propociona la suma de cuadrados dent.ro de los grupos por clusters (grupos) en lugar 
de por variables, como se indica: 

Number of Within cluster Average distance Maximum distance 
observations sum of squares from centroid from centroid 
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Clusterl 

21 

10855.985 

20.220 

58.275 

Cluster2 

14 

833.119 

7.357 

10.902 

Cluster3 

28 

960.586 

5.415 

9.925 

Cluster4 

9 

864 . 347 

8.977 

15.250 

Cluster5 

19 

3126.014 

12.110 

21.066 
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Ejemplo 8.3 Los resultados para datos sin estandarizar son parecidos, pero no identicos, 
como puede verse en la figura 8.13, donde se han representado los grupos en el piano de 
las dos variables con mayor varianza y que van a tener m.as peso en la determinacion de 
los grupso. Al estandarizar las variables los resultados cambian sustancialmente, al tener un 
peso mayor el resto de las variables, los grupos son mas homogeneos por continentes y en 
Europa se separan los paises occidentales y los orientates. Los resultados se presentan en la 
figura 8. 14 donde de nuevo se han utilizado las dos variables mas importantes. 


Figura 8.13: Resultados de k-medias con minitab para los datos de MUNDODES sin es- 
tandarizar. Se forman cinco grupos. En ordenadas la mortalidad infantil(C4) y en abcisas 
la tasa de natalidad (C2) 
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Figura 8.14: Resultados de k-medias para datos estandarizados de MUNDODES con el 
programa Minitab. En ordenadas la mortalidad infantil(C4) y eii abcisas la tasa de natalidad 
(C2) 


8.3 METODOS JERARQUICOS 

8.3.1 Distancias y Similaridades 


Distancias Euclfdeas 


Los metodos jerarquicos parten de una matriz de distancias o similaridades entre los ele- 
mentos de la muestra y construyen una jerarqufa basada en una distancia. Si todas las 
variables son continuas, la distancia mas utilizada es la distancia eucli'dea entre las variables 
estandarizadas. No es, en general, recomendable utilizar las distancias de Mahalanobis, ya 
que la unica matriz de covarianzas disponible es la de toda la muestra, que puede mostrar 
unas correlaciones muy distintas de las que existen entre las variables dentro de los grupos. 
Por ejemplo, la figura 8.15 se ha generado con dos grupos de variables normales indepen- 
dientes de medias (0,0) y (5,5) y varianza unidad. La posicion de los grupos genera en el 
conjunto de puntos una correlation positiva fuerte, que desaparece si consideramos cada uno 
de los grupos por separado. 
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Figura 8.15: Dos grupos con variables incorreladas pueden dar lugar a alt.a correlacion entre 
las variables. 


Para decidir si estandarizar las variables o no antes del analisis conviene tener en cuen- 
ta los comentarios anteriores y el objet.ivo del estudio. Si no estandarizamos, la distancia 
euch'dea dependera sobre todo de las variables con valores mas grandes, y el resultado del 
analisis puede cambiar completamente al modificar su escala de medida. Si estandarizamos, 
estamos dando a priori un peso semejante a las variables, con independencia de su variabil- 
idad original, lo que puede no ser siempre adecuado. 

Cuando en la muestra existen variables continuas y atributos el problema se complica. 
Supongamos que la variable x\ es binaria. La distancia euch'dea entre dos elementos de la 
muestra en funcion de est.a variable es (x,i — x w ) 2 que t.omara el valor cero si x t] = x^i, es 
decir cuando el atributo est.a, o no est.a, en ambos elementos, y uno si el atributo est.a en un 
element.o y no en el ot.ro. Sin embargo, la distancia entre dos elementos correspondient.e a 
una variable continua estandarizada, (x, \ — xi,a ) 2 /s 2 , puede ser mucho mayor que uno, con lo 
que las variables continuas van en general a pesar mucho mas que las binarias. Esto puede 
ser aceptable en muchos casos, pero cuando, por la naturaleza del problema, esta situacion 
no sea deseable, la solucion es trabajar con similaridades. 


Similaridades El coeficiente de similaridad segiin la variable j = 1, ...,p entre dos elemen- 
tos muestrales (t, h), se dehne como una funcion, Sjih, no negat.iva y simetrica: 

(1) s jii = 1 

(2) 0 < s jih < 1 

(3) Sjih Sjhi 

Si obtenemos las similaridades para cada variable entre dos elementos podemos combina- 
rlas en un coeficiente de similaridad global entre los dos elementos. El coeficiente propuest.o 
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por Gower es 


j ^Ujih^jih 

Sih v — vn 

2Jj = 1 w Jih 

donde w Jr n es una variable fict-icia que es igual a uno si la comparacion de estos dos elementos 
mediant-e la variable j tiene sent-ido, y sera cero si no queremos incluir esa variable en la 
comparacion entre los elementos. Por ejemplo, si la variable x\ es si nna persona ha pedido 
(xi = 1) o no ( X\ = 0) un credito y la x 2 si lo ha devuelto o no, si una persona no ha 
pedido credito, tiene X\ = 0, no t-ienen sentido preocuparse de x 2 . En este caso al comparar 
individuos (i,j) si uno cualquiera de los dos tiene un valor cero en X\, asignaremos a la 
variable w 2i j el valor cero 

Las similaridades entre elementos en funcion de las variables cualitativas pueden con- 
struirse individualmente o por bloques. La similaridad entre dos elementos por una variable 
binaria sera uno, si ambos t-ienen el atributo, y cero en caso contrario. Alternativamente, 
podemos agrupar las variables binarias en grupos homogeneos y tratarlas conjuntamente. Si 
suponemos que todos los atributos t-ienen el mismo peso, podemos construir una medida de 
similaridad ent-re dos element-os A y B respecto a t-odos est-os atributos contando el numero 
de atributos que est-an presentes: 

(1) en ambos (a); 

(2) en A y no en B, (b); 

(3) en B y no en A, (c); 

(4) en ninguno de los dos element-os, (d). 

Estas cuatro cant-idades forman una tabla de asociacion entre elementos, y serviran para 
construir medidas de similitud o similaridad entre los dos element-os comparados. En esta 
t-abla se verifica que n a = a + b + c + d, donde n a es el numero de atributos. 




Element-os 

variables (atributos) 

Xl 

x 2 

^3 

X 4 

x 5 

x 6 

x 7 

A 

0 

1 

1 

0 

0 

0 

1 

B 

1 

0 

1 

1 

1 

1 

0 

C 

1 

0 

0 

1 

1 

1 

1 


Tabla 8.3: Matriz de dat-os cuando las variables son atributos binarios 

Por ejemplo, la tabla 8.3 presenta una posible matriz de dat-os con siet-e atributos binarios 
y con ella se ha construido la tabla 8.4 de asociacion que presenta la distribucion conjunta 
de los valores 0 y 1 para los element-os A y B. El element-o A t-iene 3 valores 1 en el conjunto 
de variables binarias y de estos tres casos, en una ocasion tambien el element-o B tiene el 
valor 1, y en otras dos tiene el valor 0. El element-o A toma 4 veces el valor 0, ninguna 
coincidiendo con B y las cuatro con B t-omando el valor uno. La suma de los tot-ales de filas 
y columnas debe ser siempre el numero de atributos binarios considerados. Para calcular un 
coeficient-e de similitud entre dos individuos a partir de su t-abla de asociacion se ut-ilizan los 
dos criterios principals siguientes: 
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B 





1 



A 

D 


2(b) 

H 


D 


0(d) 

D 

Suma 

□ 

5 

2 

H 


Tabla 8.4: Tabla de asociacion correspondient-e a los element-os A y B 


1. Proportion de coincidencias. Se calcula como el numero total de coincidencias sobre 
el numero de atributos t-ot-ales: 


s 


ij 


o A d 
n a 


(8.5) 


por ejemplo la similitud de Ay B es 1/7, y la de B y C es 5/7. 

2. Proportion de apariciones. Cuando la ausencia de un atributo no es relevant-e, podemos 
excluir las ausencias y calcular solo la proportion de veces donde el atributo aparece 
en ambos elementos. El coeficient-e se define por: 


s 


ij 


a 

a 4- b P c 


( 8 . 6 ) 


Por ejemplo con este criterio en la tabla 8.3 la similitud entre A y B es tambien 1/7 , y 
la de B y C es 4/6. 

Aunque las dos propuest-as ant-eriores son las mas utilizadas puede haber situaciones 
donde sean recomendables otras medidas. Por ejemplo, podemos querer dar peso doble a las 
coincidencias, con lo que result-a sp- = 2 (a + d)/(2(a + d) + b + c), o t-ener solo en cuenta las 
coincidencias y t-omar = a/(b + c). Finalment-e los coeficientes de similitud o similaridad 
para una variable continua se construye mediante 

1 Uj J'hj | 

Sjih 1 7 T 

rango(Xj J 

de esta manera el coeficient-e resultante estara siempre entre cero y uno. Cuando t-enemos 
varias variables estos coeficientes pueden combinarse como indica la expresion (8.4). 

Una vez obt-enida la similaridad global entre los elementos, podemos transformar los 
coeficientes en distancias. Lo mas simple es definir la distancia mediante d, j = 1 — s tJ . pero 
esta relacion puede no verificar la propiedad triangular. Puede demostrarse que si la matriz 
de similaridades es definida posit-iva (lo que ocurrira si calculamos las similitudes por (8.5) 
o (8.6), y definimos la distancia por: 


dij 



entonces sf se verifica la propiedad triangular (vease el ejercicio 6.5) 
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8.3.2 Algoritmos Jerarquicos 

Dada una matriz de distancias o de similitudes se desea clasificar los elementos en una jer- 
arqufa. Los algoritmos existentes funcionan de manera que los elementos son sucesivamente 
asignados a los grupos, pero la asignacion es irrevocable, es decir, una vez hecha, no se 
cuestiona nunca mas. Los algoritmos son de dos tipos: 

1. De aglomeracion. Parten de los elementos individuales y los van agregando en grupos. 

2. De division. Parten del conjunto de elementos y lo van dividiendo sucesivamente hasta 
llegar a los elementos individuales. 

Los algoritmos de aglomeracion requieren menos tiempo de calculo y son los mas utiliza- 
dos. El lector puede consultar los algoritmos de division en Seber (1984). 

8.3.3 Metodos Aglomerativos 

Los algoritmos aglomerat-ivo que se utilizan tienen siempre la misma estructura y solo se 
diferencian en la forma de calcular las distancias entre grupos. Su estructura es: 

1. Comenzar con tantas clases como elementos, n. Las distancias entre clases son las 
distancias entre elementos originales. 

2. Seleccionar los dos elementos mas proximos en la matriz de distancias y formal - con 
ellos una clase. 

3. Sustituir los dos elementos utilizados en (2) para definir la clase por un nuevo elemento 
que represente la clase construida. Las distancias entre este nuevo elemento y los 
anteriores se calculan con uno de los criterios que comentamos a continuation. 

4. Volver a (2) y repetir (2) y (3) hasta que tengamos todos los elementos agrupados en 
una clase unica. 

Criterios para definir distancias entre grupos 

Supongamos que tenemos un grupo A con n a elementos, y un grupo B con rii, elementos, y 
que ambos se fusionan para crear un grupo (AB) con n a + rii, elementos. La distancia del 
nuevo grupo, (AB), a otro grupo C con n c elementos, se calcula habit ualmente por alguna 
de las cinco reglas siguient.es: 

1. Encadenamiento simple o vecino m.as proximo. La distancia entre los dos nuevos 
grupos es la menor de las distancias entre grupos antes de la fusion. Es decir: 

d(C] AB) = min ( dcA , dcB ) 

Una forma simple de calcular con un ordenador el mi'nimo entre las dos distancias es 
utilizar que 

min ( dcA , dcB ) = 1/2 (dcA + dcB — \dcA — dcB |) 
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En efecto, si dcB > dcA el termino en valor absoluto es dcB — dcA y el result-ado de 
la operacion es dcA , la menor de las distancias. Si dcA > dcB el segundo termino es 
dcA ~ dcB y se obtiene dcB- 

Como est-e criterio solo depende del orden de las distancias sera invariante ante trans- 
formaciones monot-onas: obt-endremos la misma jerarqui'a aunque las distancias sean 
numericamente distint-as. Se ha comprobado que este criterio t-iende a producir grupos 
alargados, que pueden incluir elementos muy distintos en los extremos. 

2. Encadenamiento completo o vecino mas alejado. La distancia entre los dos nuevos 
grupos es la mayor de las distancias entre grupos antes de la fusion. Es decir: 

d(C;AB ) = max ( dcA , dcB ) 

y puede comprobarse que 

max ( dcA , dcB ) = 1/2 ( dcA + dcB + \dcA — dcB\) ■ 

Este criterio sera tambien invariante ante transformaciones monot-onas de las distancias 
al depender, como el anterior, del orden de las distancias. Tiende a producir grupos 
esfericos. 

3. Media de grupos. La distancia entre los dos nuevos grupos es la media ponderada entre 
las distancias entre grupos antes de la fusion. Es decir: 

d(C- AB ) = — d c a + — d CB 
n a + n b n a + n b 

Como se ponderan los valores de las distancias, este criterio no es invariante ante 
transformaciones monot-onas de las distancias. 

4. Metodo del centroide. Se aplica generalmente solo con variables continuas. La distancia 
entre dos grupos se hace igual a la distancia euch'dea entre sus centros, donde se 
toman como centros los vect-ores de medias de las observaciones que pert-enecen al 
grupo. Cuando se uueu dos grupos se pueden calcular las nuevas distancias entre ellos 
sin utilizar los element-os originates. Puede demostrarse (vease ejercicio 8.5) que el 
cuadrado de la distancia euch'dea de un grupo C a la union de los grupos A, con n a 
elementos y B con n b es 


d 2 (C] AB) 


n a 


n a + n b 


d 2 C A + 


n b 

n a + n b 


d 2 

a CB 


n a n b 

{n a + n b ) 2 


d 


2 

AB 


El metodo de Ward 

Un proceso algo diferent-e de construir el agrupamiento jerarquico ha sido propuesto por 
Ward y Wishart. La diferencia con los metodos anteriores es que ahora se part-e de los 
elementos directameut-e, en lugar de utilizar la matriz de distancias, y se define una medida 
global de la het-erogeneidad de una agrupacion de observaciones en grupos. Est-a medida es 
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W, ya utilizada en la section 8.2, la suma de las distancias eucli'deas al cuadrado entre cada 
elemento y la media de su grupo: 

W = ^2^9 - Xg)'(xig - Xg) ( 8 - 7 ) 

9 i&9 

donde x 9 es la media del grupo g. El criterio comienza suponiendo que cada dat-o forma 
un grupo, g = n y por tanto W (8.7) es cero. A continuation se unen los elementos que 
produzcan el incremento minimo de W. Obviament-e esto implica tomar los mas proximos 
con la distancia euch'dea. En la siguiente et-apa t-enemos n — 1 grupos, n — 2 de un elemento 
y uno de dos elementos. Decidimos de nuevo que dos grupos unir para que W crezca lo 
menos posible, con lo que pasamos an — 2 grupos y asf sucesivamente hasta tener un unico 
grupo. Los valores de W van indicando el crecimiento del criterio al formal - grupos y pueden 
utilizarse para decidir cuant-os grupos naturales contienen nuestros datos. 

Puede demostrarse que, en cada etapa, los grupos que debe unirse para minimizar W 
son aquellos tales que: 

mm ^ - x 6 ) (x a - x 6 ) 

n a + n b 


Comparacion 

Es difi'cil dar reglas generates que justifiquen un criterio sobre otro, aunque los mas utilizados 
son los tres ultimos. Nuestra recomendacion es analizar que criterio es mas razonable para 
los datos que se quieren agrupar y , en caso de duda, probar con varios y comparar los 
result-ados. 

El dendrograma 

El dendrograma, o arbol jerarquico, es una representation grafica del result-ado del proceso de 
agrupamiento en forma de arbol. Los criterios para definir distancias que hemos present-ado 
tienen la propiedad de que, si consideramos tres grupos, A, B, C, se verifica que 

d(A, C ) < max {d(A, B), D(B, C)} 

y una medida de distancia que tiene est-a propiedad se denomina ultrametrica. Esta propiedad 
es mas fuert-e que la propiedad triangular, ya que una ultrametrica es siempre una distancia. 
En efecto si d 2 (A,C ) es menor o igual que el maximo de d 2 (A, B),d 2 (B,C) forzosamente 
sera menor o igual que la suma d 2 (A, B ) + d 2 (B. C ). El dendrograma es la repreentacion de 
una ultrametrica, y se contruye como sigue: 

1. En la parte inferior del grafico se disponen los n element-os iniciales. 

2. Las uniones entre element-os se representan por tres lineas rectas. Dos dirigidas a los 
elementos que se unen y que son perpendiculares al eje de los element-os y una paralela 
a este eje que se situa al nivel en que se unen. 

3. El proceso se repit-e hast-a que todos los element-os est-an concet-ados por lineas rectas. 
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Si cortamos el dendrograma a un nivel de distancia dado, obtenemos una clasificacion 
del numero de grupos existentes a ese nivel y los elementos que los forman. 

El dendrograma es util cuando los puntos tienen claramente una estructura jerarquica, 
pero puede ser enganoso cuando se aplica ciegamente, ya que dos puntos pueden parecer 
proximos cuando no lo estan, y pueden aparecer alejados cuando estan proximos. 

Ejemplo 8.4 Aplicaremos los algoritmos estudiados a la siguiente matriz inicial de distan- 
cias entre elementos 



A 

B 

C 

D 



A 

0 

1 

4 

2,5 


o i 4 

2,5 

B 

1 

0 

2 

3 

= 

0 2 

3 

C 

2 

2 

0 

4 


0 

4 

D 

2,5 

3 

4 

0 



0 


Metodo 1 encadenamiento simple o vecino mas proximo. El valor mi'nimo fuera de la diagonal 
de la matriz de distancias es 1, y corresponde a la distancia entre los elementos Ay B. Los 
unimos para formar un grupo y calcularemos la nueva distancias de un elemento al grupo 
(AB) co mo la minima de las distancias de ese elemento a A y a B. Es decir: 


d(AB,C) = min( 4; 2) =2; 
d(AB,D) = min( 2, 5; 3) = 2, 5. 


La nueva tabla de distancias se obtiene de la anterior tachando las filas y columnas de 
A y B y anadiendo una nueva columna y una nueva fila correspondiente al grupo AB que 
contiene las nuevas distancias. El resultado es : 


AB 

C 

D 


AB C D 

0 2 2,5 

2 0 4 

2,5 4 0 


El valor mfnim o fuera de la diagonal de la tabla es ahora 2, que corresponde a la distancia 
entre AB y C. Uniendo estos dos grupos en uno y calculando las distancias al nuevo grupo : 


d(ABC, D ) = min( 2, 5; 4) = 2, 5. 

y finalmente se unen los dos grupos finales ABC y D. Est-e proceso se representa en el 
dendrograma de la figura 8.16 

El dendrograma indica que primero se unen los dos elementos A y B a distancia uno, ese 
grupo se une al C con distancia 2 y el ABC al D a distancia 2,5. 
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Figura 8.16: Dendrograma del metodo de encadenamiento simple 


Metodo 2. Encadenamiento complete o vecino mas alejado. La primera union se hace igual 
que en el caso anterior entre A y B a distancia uno. Sin embargo, ahora las nuevas distancias 
son: 


d(AB,C ) = max( 4; 2) = 4; 
d(AB,D) = max{ 2, 5; 3) = 3 

y la siguiente union sera entre AB y D a distancia tres. La distancia de C al grupo ABD es 
4 y esa sera la siguiente union. La figura 8.17 resume el proceso. 

Metodo 3 . El inicio es, como en los metodos anteriores, la union de los elementos mas 
proximos, AB. Las nuevas distancias son d(AB,C)=3; d(AB,D)=2,75. Por tanto, la siguiente 
union sera entre AB y D a distancia 2,75. Este grupo ABD se unira a C a su distancia que 
es d(ABC,D) = 1/2(4+2,75) = 3,375. La figura 8.18 resume el proceso. 

Metodo 4 ■ El inicio es, como en los metodos anteriores. Las nuevas distancias se calculan 
como d 2 (C\ AB) = \d 2 CA + \d^ B — \d 2 AB = 8 + 2 — 0, 25 = 9, 75. Analogamente d 2 (D ; AB) = 
2, 5 2 /2 + 9/2 — 1/4 = 7, 375. La union sera con D a distancia y/7, 375 = 2.72. La distancia 
de C al nuevo grupo sera d 2 (C\ ABD) = |9, 75 + |16 — |7, 375 = 3.16 2 , y C se unira al grupo 
a la distancia 3.16. La figura 8.19 presenta el dendograma. 


Ejemplo 8.5 La figura 8.20 presenta el dendrograma hecho con MINITAB para los paises de 
MUNDODES con el metodo de la disminucion de la suma de cuadrados (Ward). El grafico 
sugiere la presencia de cuatro o cinco grupos de paises. 
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Figura 8.17: Dendrograma del metodo de encadenamiento completo 


3.5 r- 



Figura 8.18: Dendrograma del metodo de la media de los grupos 
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Figura 8.19: Dendrograma del metodo del centroide. 


Figura 8.20: Resultados de un agrupamiento jerarquico de los paises de MUNDODES por 
las variables de natalidad 


La figura muestra el resultado del encadenamiento simple, que es mucho mas confuso. 
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Figura 8.21: Resultados de una aglomeracion jerarquica para los paises de MUNDODES con 
encadenamiento simple. 


Para comparar los resultados del agrupamiento jerarquico y el de particion la figura 8.22 
presenta los grupos obtenidos para los datos estandarizados y con el criterio de Ward en el 
graftco de las variables tasa de natalidad y mortalidad infantil. 


Figura 8.22: Resultado del agrupamiento jerarquico cortado en cinco grupos para variables 
estandarizadas de MUNDODES 
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8.4 CONGLOMERADOS POR VARIABLES 

El analisis de conglomerados de variables es un procedimiento exploratorio que puede sugerir 
procedimient-os de reduccion de la dimension, como el analisis factorial o los metodos de 
correlacion canonica que estudiaremos en la segunda parte del libro. La idea es construir 
una matriz de distancias o similitudes entre variables y aplicar a esta matriz un algoritmo 
jerarquico de clasificacion. 

8.4.1 Medidas de distancia y similitud entre variables 

Las medidas habituales de asociacion entre variables continuas son la covarianza y la cor- 
relacidn. Estas medidas tienen en cuenta unicamente las relaciones lineales. Alternativa- 
mente, podrfamos construir una medida de distancia entre dos variables x :/ - y X/ ( represen- 
tando cada variable como un punto en ft” y calculando la distancia euch'dea entre los dos 
puntos. Esta medida es: 


n 


^ 3'ih) 

2 — J 

( 8 . 8 ) 

^ ^ ‘^'ij ft 'y ^ x ih 2 'y ^ x i j Xih . 

( 8 . 9 ) 


Para que la distancia no dependa de las unidades, las variables deben estar est-andarizadas. 
En otro caso la distancia entre dos variables podrfa alterarse arbitrariamente mediante trans- 
formaciones lineales de estas. (Por ejemplo, midiendo las estaturas en metros, en lugar de 
en cm. y en desviaciones respecto a la media poblacional en lugar de con caracter absolu- 
to). Suponiendo, por tanto, que trabajamos con variables est-andarizadas de media cero y 
varianza uno, se obtiene que (8.8) se reduce a: 

d )h = 2n(l — r jh ). 

Observemos que: 

(a) si rjh = 1, la distancia es cero, indicando que las dos variables son identicas. 

(b) si rjh = 0, las dos variables estan incorreladas y la distancia es djh = \/2n. 

(c) si rjh < 0, las dos variables tienen correlacion negat-iva, y la distancia t-omara su valor 
maximo, yAA.. cuando las dos variables t-engan correlacion —1. 

Esta medida de distancia puede estandarizarse para que sus valores esten entre cero y 
uno prescindiendo de la const-ante n y t-omando djh = \J{ 1 — rjh) /2. 

Para variables cualit-at-ivas binarias se puede construir una medida de similitud de forma 
similar a como se hizo con los element-os construyendo una tabla de asociacion entre variables. 
Para ello se cuenta el mimero de element-os donde estan presentes ambas caracterfsticas (a), 
donde esta solo una de ellas (b) y (c), y donde no lo estan ninguna de las dos (d). En estas 
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tablas se verifica que si n es el numero de individuos n = a + b + c + d, y podemos construir 
coeficientes de similitud como se hizo con los elementos. Alternativamente, esta tabla de 
asociacion entre variables es una tabla de contingencia (vease el capi'tulo 7) y una medida 
de distancia es el valor de la ji-cuadrado (vease el Apendice 8.1) 

2 (ad — bc) 2 n 

(a A b) (a A c)(c A d) (b A d) 

Es mas habitual definir la distancia por el coeficiente de contingencia 



8.5 Lect uras complement arias 

Un libro pionero sobre metodos de agrupamiento en espanol es Escudero (1977), que presenta 
una vision muy amplia de distintas tecnicas de agrupacion. La literatura sobre cluster en 
ingles es extensa: Anderberg (1973), Everitt (1993), Gordon (1981), Hartigan (1975), Mirkin 
(1996) , Spath y Bull (1980) y Spath (1985), estan dedicados a este t-ema. La mayon'a de los 
libros generales dedican tambien un capi'tulo a estos metodos. 

Ejemplo 8.6 La figura8.23 muestra el dendrogram, a del agrupamiento de las variables de los 
datos de EUROSEC. El criterio utilizado es el de Ward. Se observa que la agrupacion de las 
variables coincide con lo esperado: primero se unen mmeria y energia, sevicios y servicions 
industriales, e industria y construccidn. En un segundo nivel tenemos servicios (que engloba 
las tres variables servicios, servicios industriales y finanzas), agricultura, que esta sola e 
industria, que recoge el resto de las variables industriales. 


Figura 8.23: Agrupamiento por variables de los datos de EUROSEC 
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Ejemplo 8.7 El dendrograma de la figura8.24 muestra la agrupacion de las variables para 
las medidas fisicas, MEDIFIS. La correlacion m.as estrecha se da entre longitud del pie y 
estatura, y la variable diametro del craneo esta poco relacionada con el resto como obtuvi- 
mos anteriormente. Si quisiesemos hacer grupos a un primer nivel tenemos tres grupos de 
variables, de longitud, con 4 variables, de anchura, con dos, y el diametro de la cabeza. A 
un nivel superior quedan todas las variables en un lado y el diametro de la cabeza en el otro. 


Figura 8.24: Dendrograma de las medidas fi'sicas con el criterio de Ward. 


Ejemplo 8.8 La figura 8.25 presenta los resultados para las variables de INVES. A un nivel 
bajo tenemos cuatro grupos de variables: quvmica, ingenierta, agricultura y biologia y el resto, 
que incluye 4 variables. A un nivel superior los dos ultimos grupos se unen y la distancia 
mayor se da entre el banco de datos quimicos y el resto. 
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Figura 8.25: Dendrograma de las variables de INVES 

EJERCICIOS 

Ejercicio 8.1 Aplicar el algoritmo de k-m.edias a los datos de los presupuestos familiares. 
I Cudntos grupos hay en Iso datos? 

Ejercicio 8.2 Aplicar un agrupamiento jerarquico a los datos de los presupuestos familiares. 
Comparar el resultado con distintos metodos de agrupacidn. Compararlos con los resultados 
de k-m.edias 

Ejercicio 8.3 Demostrar que el criterio de Hartigan para el algoritmo de k-medias equivale 
a continuar ahadiendo grupos hasta que tr( Wg) < tr(WG+i)(n — G + 9 )/(n — G — 1) 
(Sugerencia utilizar que tr( W) = SCDG, e imponer la condicion de que el valor de F sea 
mayor que 10) 

Ejercicio 8.4 Demostrar que si definimos T = Y^=i ^r=i ( x *9 — x)(x ifl — x)' a l a suma de 
cuadrados totales podemos escribir T = B + W, donde W se ha definido en la seccion 8.2 y 
B es la matriz de suma de cuadrados entre grupos. 

Ejercicio 8.5 Demostrar que las distancias entre grupos con encadenamiento simple, com- 
pleto y m.edia de grupos pueden calcularse con adcA + adcB + P \ dcA — dcs| y obtener los 
valores de a y /3 que dan lugar a estas distancias. 

Ejercicio 8.6 Demostrar que en aglomeramiento jerarquico podemos calcular las distancias 
euclideas al cuadrado entre un grupo C a la union de los grupos A, con n a elementos y B 
con n b mediante d 2 (C;AB) = ^pd 2 CA + ^-d 2 CB - j^^^ab ■ 

( sugerencia : La media de la union de los grupos A y B tendra de coordenadas Tab = 
- x A + - n f.„ xb, sustituir esa expresidn en la distancia de C a ese punto (xc~ %ab)' (xc~ 
x A b) y desarrollar. 
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ji-OTTOk $Mmp EL K ™ 13 ™ 0 

En la t-abla de contingencia {a,b,c,d} las frecuencias esperadas son - { (a + c) (a + b) , (a + 
b){b R d ) , {b + d)(c R d)} y el valor de la y 2 definida en la seccion 7.3 es: 


2 f ad — bc\ n n n n 

^ \ n ) (a R c)(a R b) ^ (a R b)(b R d) (a R c)(c R d) (b R d)(c R d) 

En efecto, como la tabla tiene un grado de libertad, las discrepancias entre las frecuencias 
observadas y esperadas deben de ser iguales, por ejemplo para la primera casilla 


(a + c) (a + b) \ 2 f na — a(a + b R c) — bc\ 2 f ad — bc\ 2 


y lo mismo se obtiene en las restantes. Como: 


( b R d)(d + c) + (a + c)(c + d) + (a R V){b R d) R (o R c)(o R 5) — 


(6 + d)n R (a + c)n = (a + b R c R d)n = n 2 


resulta finalmente que: 


(ab — bc) 2 n 

(o *7 5)(o R c)(b R d)(c “7 d) 



Capftulo 9 


DISTRIBUCIONES 

MULTIVARIANTES 

9.1 CONCEPTOS BASICOS. 

El problema central en la analisis de dat-os es decidir si las propiedades encontradas en una 
muestra pueden generalizarse a la poblacion de la que proviene. Para poder realizar esta 
extrapolation necesitamos construir un modelo del sistema generador de los dat-os, es decir, 
suponer una distribution de probabilidad para la variable aleat-oria en la poblacion. Este 
capftulo repasa los concept-os basicos para construir modelos estadi'st-icos multivariantes y 
presenta las distributions que se utilizaran para la inferencia en los capftulos siguientes. 

9.1.1 Variables aleatorias vectoriales. 

Una variable aleat-oria vectorial es el result-ado de observar p caract-erist-icas en un element-o 
de una poblacion. Por ejemplo, si observamos la edad y el peso de los estudiantes de una 
universidad t-endremos valores de una variable aleatoria bidimensional; si observamos el 
m'nnero de trabajadores, las ventas y los beneficios de las empresas de un sector, t-endremos 
una variable aleatoria tridimensional. 

Diremos que se ha definido la distribution conjunta de una variable aleat-oria vectorial 
cuando se especifique: 

1. El espacio muestral o conjunto de sus valores posibles. Representando cada valor por 
un punt-o en el espacio de dimension p. V, de los m'nneros reales, el espacio muestral 
es, en general, un subconjunto de este espacio. 

2. Las probabilidades de cada posible result-ado (subconjunto de punt-os) del espacio mues- 
tral. 

Diremos que la variable vectorial p — dimensional es discret-a, cuando lo es cada una de las 
p — variables escalares que la componen. Por ejemplo, el color de los ojos y del cabello forman 
una variable bidimensional discret-a. Analogamente, diremos que la variable es continua si sus 
componentes lo son. Cuando algunos de sus component-es sean discretos y ot-ros continuos 
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diremos que la variable vectorial es mixta. Por ejemplo, la variable: genero (0=liombre, 
l=mujer), estatura y peso de personas, es tridimensional mixta. En este capitulo, para 
simplificar la exposicion, y salvo indicacibn en otro sentido, supondremos que la variable 
vectorial es continua. 

9.1.2 Distribucion conjunta 

La funcion de distribucion conjunta de una variable aleatoria vectorial F(x) se define en un 
punto x° = (xi,...,Xp) mediante: 

F(x°) = P(x < x°) = P(x i < x°, ...,x p < x° p ) 

donde P(x < x°) representa la probabilidad de que la variable tome valores menores o 
iguales al valor particular considerado, x°. Por tanto, la funcion de distribucion acumula 
las probabilidades de todos los valores menores o iguales al punto considerado, y sera no 
decreciente. Aunque la funcion de distribucion t-iene un gran interes teorico, es mas comodo 
en la pract-ica trabajar con la funcion de densidad para variables continuas, o con la funcion 
de probabilidades para las discretas. Llamaremos funcion de probabilidad de una variable 
discreta a la funcion p(x°) definida por 


p(x°) = P(x = x°) = P(x i = —,x p — 


xi 


Diremos que el vector x es absolutamente continuo si existe una funcion de densidad, /(x), 
que sat-isface: 


/■X 0 

^( x °) = / /( x )dx, 

J — OO 


(9.1) 


donde dx = dx\.... dx p y la integral es una integral multiple en dimension p. La densidad de 
probabilidad tiene la interpretacion habitual de una densidad: masa por unidad de volumen. 
Por tanto la funcion de densidad conjunta debe verificar 

a) /(x) = f{x i , x p ) > 0. La densidad es siempre no negat.iva. 

b) f(x)dx = f^° f™ f(x i, x p ) dx\....dx p = 1. Si multiplicamos la densidad 

en cada punto por el elemento de volumen en p dimensiones (que, si p = 2, sera el area 
de un rectangulo, si p = 3 el volumen de un paralepi'pedo, etc) y sumamos (integramos) 
para todos los puntos con densidad no nula, obtenemos la masa de probabilidad total, 
que se est-andariza al valor unidad. 

Las probabilidades de sucesos definidos como subconjuntos del espacio muestral seran 
iguales a la masa de probabilidad correspondiente al subconjunto. Estas probabilidades se 
calcularan int.egrando la funcion de densidad sobre el subconjunto. Por ejemplo, para una 
variable bidimensional y sucesos A del tipo A = (a < x\ < b] c < X 2 < d): 


P(A) = 



f(x\,X2)dXidX2 
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mientras que, en general, 


P ( A ) = [ /(x)dx. 

J A 

En este caprtulo, y para simplificar la notacion, utilizaremos la letra / para referirnos a 
la funcion de densidad de cualquier variable e indicaremos la variable por el argumento de 
la funcion, de manera que /(aq ) es la funcion de densidad de la variable x \ , y /(aq, x 2 ) es 
la funcion de densidad de la variable bidimensional (aq,aq). 


9.1.3 Distribuciones marginales y condicionadas 

Dada una variable aleatoria vectorial p — dimensional (aq, x p ) llamaremos distribution 
marginal de cada componente x % a la distribucion univariante de dicho componente, consid- 
erado individualmente, e ignorando los valores del resto de los componentes. Por ejemplo, 
para variables bidimensionales continuas las distribuciones marginales se obtienen como: 

/ OO 

f(x 1 ,x 2 )dx 2 , (9.2) 

-OO 



f(x 1 ,x 2 )dx ll 


(9.3) 


y representan la funcion de densidad de cada variable ignorando los valores que toma la otra. 
Como hemos indicado antes, la letra / se refiere genericament.e a una funcion de densidad. 
Por ejemplo, la ecuacion (9.2) indica que si integramos una funcion de densidad en dos 
variables, /(a q,aq), respecto a la variable x 2 se obtiene una funcion que es de nuevo una 
funcion de densidad, y de ahr el srmbolo /, pero que es ahora la funcion de densidad de 
la variable aq. Las funciones /(a q) y f(x i,x 2 ) seran en general totalmente distint-as y solo 
tienen en comun ser ambas funciones de densidad, por tanto / (.) > 0, y 


/(aq)daq = 1 


r*QO pOO 


f(xi,x 2 )dxidx 2 = 1. 


' — OO J — OO 


Para just ificar (9.2), calcularemos la probabilidad de que la variable aq pertenezca a un 
intervalo (a, b] a partir de la distribucion conjunta. Entonces: 


P(a < aq < b) = P(a < aq < b; —oc < x 2 < oo) = / dx,\ / f(xi,x 2 )dx 2 = 

J a J — oo 

= [ /(aq)daq 
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que justifica (9.2). Observemos que en esta ecuacion x \ es un valor concret-o cualquiera. 
Supongamos que la precision de la medida de x \ es Aaq, es decir, diremos que ha ocurrido 
el valor x\ si se observa un valor en el intervalo x \ ± Ax\/2. La probabilidad de est-e valor 
sera el valor de la densidad en el centro del intervalo, f{x\ ) por la longitud de la base Aaq. 
Si multiplicamos ambos miembros de la ecuacion (9.2) por la const-ante Aaq, t-enemos en el 
primer miembro f{x\)Ax \ , que es la probabilidad de ese valor concret-o de x\ calculada con 
su distribution univariante. En el segundo miembro tendremos la suma (integral) de t-odas 
las probabilidades de los pares de valores posibles (x\. x 2 ), cuando x,\ es fijo y x 2 t-oma t-odos 
los valores posibles. En efecto, estas probabilidades vienen dadas por f(x\, x 2 )dx 2 Axi, y 
sumando para t-odos los valores posibles de x 2 de nuevo obt-enemos la probabilidad del valor 
x 1 . 

Si x = (xi, x 2 ), donde xi y x 2 son a su vez variables vectoriales, se define la distribution 
condicionada de xi, para un valor concret-o de la variable x 2 = x°, por: 


/( Xl | x3 = A||> (9.4) 

supuesto que /(x°) 7^ 0. Esta definition es consistent-e con el concepto de probabilidad 
condicionada y con el de funcion de densidad para una variable. En efecto, supongamos 
para simplificar que ambas variables son escalares. Entonces multiplicando por Aaq ambos 
miembros t-endremos 


f(x 1 \x° 2 )Ax 1 


f(x\, X 2 )Ax l Ax 2 
f(x%) Ax 2 


y el primer miembro represent-a la probabilidad condicionada que se expresa como cocient-e 
de la probabilidad conjrmta y la marginal. De est-a definition se deduce: 


/(x 1,X 2 ) = /(x 2 |xi)/(xi). 


(9.5) 


La distribution marginal de x 2 , puede calcularse en funcion de (9.3) y (9.5) como: 


/(x 2 ) = J /(x 2 |xi)/(xi)dxi, (9.6) 

que tiene una clara interpretacion intuitiva. Si multiplicamos ambos miembros por Ax 2 , el 
element-o de volumen, t-enemos en la izquierda /(x 2 ) Ax 2 , la probabilidad del valor concret-o de 
x 2 considerado. La formula (9.6) uos dice que est-a probabilidad puede calcularse obteniendo 
primero la probabilidad del valor x 2 para cada posible valor de xi, dada por /(x 2 |xi)Ax 2 , 
y luego multiplicando cada uno de estos valores por las probabilidades de xi, /(xi)dxi, lo 
que equivale a promedir las probabilidades condicionadas por x, respecto a la distribution 
de esta variable. 

Como result-ado de (9.5) y (9.6) la distribution condicionada /(xi|x 2 ) puede entonces 
escribirse como: 


/(x i|x 2 ) 


/(x 2 |x 1 )/(x 1 ) 

J/(x 2 |xi)/(xi)dxi 


(9.7) 
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que es el teorema de Bayes para funciones de densidad, y constituye la herramienta funda- 
mental de la inferencia Bayesiana que estudiaremos en el capi'tulo 11. 

Para variables discretas los conceptos son similares, pero las integrates se sustituyen por 
sumas, como se indica en el siguiente ejemplo. 


Ejemplo 9.1 La tabla 9.1 presenta al distribution conjunta de las variables aleatorias disc- 
retas: Xi : votar a uno de cuatro posibles partidos politicos, que toma los cuatro valores 
posibles Pi,P 2 ,P 3 y Pa y '■ nivel de ingresos de los votantes, que toma los tres valores A 
(alto), M (medio), B (bajo). Calcular las distribuciones marginales, la distribution condi- 
cionada de los votos para las personas con ingresos bajos y la distribution condicionada de 
los ingresos para los votantes del partido P 4 . 



A 

M 

B 

Pi 

.1 

.05 

.01 

P2 

.05 

.20 

.04 

P 3 

.04 

.25 

.07 

Pa 

.01 

.1 

.08 


Tabla 9.1. Distribution conjunta de votos e ingresos en una poblacion 


Para calcular la distribution marginal anadimos a la tabla una fila y una columna y 
colocamos allf el resultado de sumar las filas y las columnas de la tabla. Con esto se obt-iene 
la tabla 9.2. Por ejemplo, la distribution marginal de los ingresos indica que la probabilidad 
de ingresos altos es .2, de medios .6 y de bajos .2. Observemos que las distribuciones 
marginales son el resultado que se obtiene eu los margenes de la tabla (lo que justifica su 
nombre) al sumar las probabilidades conjuutas por filas y por columnas. 



A 

M 

B 

Marginal de votos 

Pi 

.1 

.05 

.01 

.16 

P 2 

.05 

.20 

.04 

.29 

P 3 

.04 

.25 

.07 

.36 

Pa 

.01 

.1 

.08 

.19 


Marginal de ingresos .2 .6 .2 

Tabla 9.2. Distribution conjunta y marginales de votos e ingresos en una poblacion 


Para calcular la distribution condicionada de los votos para las personas de ingresos 
bajos, dividimos cada casilla de la columna de ingresos bajos por el total de la columna. La 
distribution resultante se indica en el tabla 9.3 


Pi 

P 2 

P 3 

Pa 

.05 

.20 

.35 

.40 


Tabla 9.3 distribution condicionada de los votos para personas con ingresos medios. 


Por ejemplo, el valor .05 es el resultado de dividir .01, la probabilidad conjunta de ingresos 
bajos y votar a Pi por la probabilidad marginal de ingresos bajos, .1. Est-a tabla indica que 
el partido preferido para las personas de ingresos bajos es el P 4 con un 40% de los votos, 
seguido del P 3 con el 35%. La tabla 9.4 indica la distribution condicionada de los ingresos 
para los votantes del partido P 4 . El grupo mas numeroso de votantes de est-e partido es de 
ingresos medios (52,63%) seguido de ingresos bajos (42,11%) y altos (5,26%). 
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A 

M 

B 

Total 

Pa 

.0526 

.5263 

.4211 

1 


Tabla 9.4 distribution condicionada de los ingresos para personas que votan a Pi. 

9.1.4 Independencia 

El concepto fundamental en el estudio conjunto de varias variables aleatorias es el concep- 
to de independencia. Diremos que dos vectores aleatorios x 1; x 2 son independientes si el 
conocimiento de uno de ellos no aporta information respecto a los valores del otro. En 
otros terminos, la distribution de valores concretos de x 2 no depende de xi y es la misma 
cualquiera que sea el valor de xi . Esto se expresa maternal icamente: 

/(x 2 |xi) = /(x 2 ) (9.8) 

que iirdica que la distribution condicionada es identica a la marginal. Utilizando (9.5), una 
definition equivalents de independencia entre dos vectores aleatorios x 1; x 2 es: 

/(x!,x 2 ) = /(xi)/(x 2 ) (9.9) 

es decir, dos vectores aleatorios son independientes si su distribution conjunta (su prob- 
abilidad conjunta) es el producto de las distribuciones marginales ( de las probabilidades 
individuales). En general, diremos que las variables aleatorias aq , x p . con densidad con- 
junta f(xi, ... ,x p ) son independientes, si se verifica: 

i, ,x p ) = f(x 1 )f(x 2 )....f(x p ) (9.10) 

La independencia conjunta es una condicion muy fuerte: al ser x\, ...,x p independientes 
tambien lo seran cualquier subconjunto de variables (x] Xh) con h < p. asf como cualquier 
conjunto de funciones de las variables individuales, gi(xi)....g\(x p ), o de conjuntos disjuutos 
de ellas. Cuando las variables son independientes no ganamos nada con su estudio conjunto 
y conviene estudiarlas individualmente. Es facil comprobar que si las variables X! y x 2 son 
independientes y construimos nuevas variables yi = gi (x^, y 2 = g 2 (x 2 ), donde la primera 
variable es solo funcion de X! y la segunda solo de x 2 , las variables yi, y 2 son tambien 
independientes. 

9.1.5 La maldicion de la dimension 

La maldicion de la dimension es un termino acunado por el matematico R. Bellman para 
describir como aumenta la complejidad de un problema al aumentar la dimension de las 
variables involucradas. En el analisis estadi'st-ico multivariante la maldicion de la dimension 
se manifiesta de varias formas. 

En primer lugar, al aumentar la dimension, el espacio esta cada vez mas vaci'o, haciendo 
mas difi'cil cualquier proceso de inferencia a partir de los dat-os. Esto es consecuencia de que, 
al aumentar la dimension del espacio aumenta su volumen (o su hipervolumen en general), 
y como la masa total de probabilidad es la unidad, la densidad de la variable aleat-oria 
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debe disminuir. En consecuencia, la densidad de probabilidad de una variable aleatoria de 
dimension alta es muy baja en todo el espacio, o, lo que es equivalente, el espacio esta 
progresivamente mas vaci'o. Para ilustrar el problema, supongamos que la densidad de una 
variable p— dimensional es uniforme en el hipercubo [0,l] p y que t-odos los componentes son 
independientes. Por ejemplo, pueden generarse muestras de esta variable tomando conjuntos 
de p numeros aleatorios entre cero y uno. Consideremos la probabilidad de que un valor 
al azar de esta variable este dentro del hipercubo [0;0,9] p . Para p = 1, el caso escalar, 
esta probabilidad es 0, 9, para p = 10, este valor baja a 0, 9 10 = 0, 35, y para p = 30 
es 0, 9 30 = 0,04. Vemos que, a medida que aumenta la dimension del espacio, cualquier 
conjunto va, progresivamente, quedandose vaci'o. 

Un segundo problema es que el numero de parametros necesario para describir los datos 
aumeuta rapidameute con la dimension. Para representar en dimension p la media y la 
matriz de covarianzas necesitamos 

p + p(p + l)/2 = p(p + 3)/2 

que es de orden p 2 . Por tanto, la complejidad de los datos, medida por el numero de paramet- 
ros necesarios para representar los, crece, en este caso, con el cuadrado de la dimension del 
espacio. Por ejemplo, 100 datos es una muestra grande para una variable unidimensional, 
pero es muy pequena para una variable vectorial con p — 14 : para estimar las medias, 
varianzas y covarianzas se requieren mas de 14(17)/2 = 119 observaciones. Como norma 
general, los procedimientos multivariantes necesita un ratio n/p > 10 y es deseable que este 
ratio sea mayor de 20. 

La consecuencia del a n m en to de la dimension es un aumento de la incertidumbre del 
problema: la prevision conjunta de los valores de la variable va siendo cada vez mas diffcil. 
En la practica, este problema disminuye si las variables son muy dependientes entre si, ya 
que entonces, la densidad de probabilidad se concentra en determinadas zonas del espacio, 
definidas por la relacion de dependencia, en lugar de repartirse por todo el espacio muestral. 
Esta dependencia puede usarse, extendiendo los metodos que como hemos visto en capi'tulos 
anteriores, para reducir la dimension del espacio de variables y evitar la maldicion de la 
dimensionalidad. 


9.2 PROPIEDADES DE VARIABLES VECTORIALES 

9.2.1 Vector de medias 

Llamaremos esperanza, o vector de medias, //, de una variable multidimensional, x, al vector 
cuyos componentes son las esperanzas, o medias, de los componentes de la variable aleatoria. 
Escribiremos el vector de medias como: 


[A = E [x 


(9.11) 


donde debe entenderse que la esperanza operando sobre un vector o una matriz es el resultado 
de aplicar este operador (tomar medias) a cada uno de los componentes. Si la variable es 
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continua: 

H = E[x\ = j x/(x)rfx 

La esperanza es una funcion lineal, es decir, para cualquier matriz, A, y vector b, tenemos: 

E [Ax + b] = AL’fxx] + b. 

Si x = (x 1 , x 2 )' tenemos tambien que, para escalares a y b : 

E [ax x + 6x 2 ] = aE [xi] + bE[x 2 } . 
y si xi y x 2 son independientes: 

E [xix 2 ] = E [xi]S[x 2 ] . 


9.2.2 Esperanza de una funcion 

Generalizando la idea de esperanza, si disponemos de nna funcion escalar y = g(x) de un 
vector de variables aleatorias, el valor medio de esta funcion se calcula: 


E[y]= / yf(y)dy = 


g(x)f(x 1 , ....,x n )dx 1 , ....,dx r 


(9.12) 


La primera integral t-iene en cuenta que y es escalar y si conocemos su funcion de densidad, 
f(y), su esperanza se calcula de la forma habitual. La segunda, muestra que no es necesario 
calcular f(y) para determinar el valor promedio de g(x): basta ponderar sus valores posibles 
por las probabilidades que dan lugar a estos valores. 

Esta definicion es consistent^, y es facil comprobar que ambos metodos conducen al 
mismo result-ado. Si x = (x 1 ,x 2 ) / , y definimos y\ = g\ (xx), y 2 = g 2 (x 2 ), si xx e x 2 son 
independientes 


E [ 2 / 12 / 2 ] = E(g l (x l ))E(g 2 (x 2 )) 

9.2.3 Matriz de varianzas y covarianzas 

Llamaremos matriz de varianzas y covarianzas (o simplemente matriz de covarianzas) de un 
vector aleat-orio x = (aq, ...,x p )', de 3? p , con vector de medias / 1 / = (p 1; ....,// ), a la matriz 
cuadrada de orden p obtenida por : 

\ x = E[(x-n)(x-n)'] (9.13) 

La matriz V ;I . contiene en la diagonal las varianzas de los component-es, que representare- 
mos por cr|, y fuera de ella las covarianzas entre los pares de variables, que represent aremos 
por cr l: j . La matriz de covarianzas es simetrica y semidefinida positiva. Es decir, dado un 
vector cualquiera, cj. se verificara: 


> 0 . 
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Para demostrar esta propiedad definamos una variable unidimensional por: 

y = (x - li)'u 

donde u> es un vector arbitrario de V p . La variable y tiene esperanza cero ya que 

E(y) = E[(k- n)\ u =0 

y su varianza debe ser no negativa: 

var(y) = E [ y 2 ] = u>'E [(x — /z)(x — /x) 7 ] uj = u/V x u; > 0 

Llamaremos varianza media al promedio de las varianzas dado por tr (V x )/p, varianza 
generalizada a V x | y variabilidad promedio a 

VP = |V x | 1/p 

que es una medida global de la variabilidad conjunta para todas las variables que tiene en 
cuenta su estructura de dependencia. La interpretation de estas medidas es similar a la 
estudiada en el capi'tulo 3 para distribuciones de datos. 

9.2.4 Transformaciones de vectores aleatorios. 

Al trabajar con funciones de densidad de vectores aleatorios es importante recordar que, 
como en el caso univariante, la funcion de densidad tiene dimensiones: si p = 1, caso 

univariante, probabilidad por unidad de longitud, si p = 2, probabilidad por unidad de 
superficie, si p = 3 por unidad de volumen y si p > 3) de hipervolumen. Por lo tanto, si 
cambiamos las unidades de medida de las variables, la funcion de densidad debe modificarse 
tambien. En general, sea x un vector de V p con funcion de densidad / X (x) y sea otro vector 
aleatorio y de V p . definido mediant-e la transformacion uno a uno: 

Vi = 9i(xi, ,x p ) 

Up = 9p{ x l? — i - P p) i 

donde suponemos que exist-en las funciones inversas x\ = hi(yi, y p ), ..., x p = h p (yi, ..., y p ), 
y que todas las funciones implicadas son diferenciables. Entonces, puede demostrarse que la 
funcion de densidad del vector y viene dada por: 


f y ( y) 



(9.14) 


donde aquf hemos utilizado f y y f x para representar las funciones de densidad de las vari- 
ables y, y x, para evitar confusiones. El termino |cZx/dy| representa el jacobiano de la 
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transformation, (que ajust-a la probabilidad por el cambio de escala de medida) dado por el 
determinante: 

dx\ dxi 

dyi dy p 

dx p dx p 

dyi dy p 

que suponemos es distinto de cero en el rango de la transformation. 

Un caso importante es el de transformaciones lineales de la variable. Si hacemos 

y = Ax 

donde A es una matriz cuadrada no singular, las derivadas de los componentes de x respecto 
a y se obtendran de x = A 'y. y seran, por tanto, los element-os de la matriz A -1 . El 
Jacobiano de la transformation sera |A _1 | = |A| 1 y la funcion de densidad de la nueva 
variable y, sera 

fv( y) = fx( A _1 y) |A| _1 (9.15) 

expresion que indica que para obtener la funcion de densidad de la variable y sustituimos 
en la funcion de densidad de la variable x el argumento por A ‘y y dividimos el result-ado 
por el determinante de la matriz A. 

9.2.5 Esperanzas de transformaciones lineales 

Sea x un vector aleatorio de dimension p y definamos un nuevo vector aleatorio y de dimen- 
sion to, (to < p), con 

y = Ax, (9.16) 

donde A es una matriz rectangular de dimensiones to x p. Llamando fi x , /x , a sus vect-ores 
de medias y V x , V ;/ a las matrices de covarianzas, se verifica la relation: 

fi y = Afi x (9.17) 

que es inmediata t-omando esperanzas en (9.16). Ademas: 

V y = AV X A! (9.18) 

donde A' es la matriz transpuesta de A. En efecto, aplicando la definition de covarianzas y 
las relaciones (9.16) y (9.18) 

= E [(y - n y ){ y - n y )'} = E [A(x - mJ( x - R x )' = AM X A' 

Ejemplo 9.2 Las valoraciones de los clientes de la puntualidad (x\), rapidez (x 2 ) y limpieza 
(xs) de un servicio de transporte tienen unas medias, en una escala de cero a diez, de 7, 8 
y 8,5 respectivamente con una m.atriz de varianzas y covarianzas 
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V 


X 


1 .5 .7 

.5 .64 .6 

.7 .6 1.44 


Se construyen dos indicadores de la calidad del servicio. El primero es el promedio de 
las tres puntuaciones y el segundo es la diferencia entre el promedio de la puntualidad y 
la rapidez, que indica la fiabilidad del servicio y la limpieza, que indica la comodidad del 
mismo. Calcular el vector de medias y la matriz de covarianzas para estos dos indicadores. 

La expresion del primer indicador es 


y la del segundo 


Xi + x 2 + x 3 


Xi + x 2 

y2 = -^-X3 


Est-as dos ecuaciones pueden escribirse matricialmente 


Vi 

2/2 


El vector de medias sera 


1/3 1/3 

1/2 1/2 


1/3 

-1 


1 

Xl 


X2 


. X 3 . 


Ih 


' 1/3 1/3 1/3 ' 


l l 2 


1/2 1/2 -1 



7,83 

-1 


y el valor 7,83 es una medida global de la calidad promedio del servicio y el menos uno de 
la relacion fiabilidad comodidad. La matriz de varianzas covarianzas es: 


V 


y 


1/3 1/3 

1/2 1/2 

. 742 22 
-.256 67 


1/3 

-1 


1 

' 1 .5 .7 1 


' 1/3 1/2 ' 


.5 .64 .6 


1/3 1/2 

- 

.7 .6 1.44 


!/3 -1 _ 


-.256 67 
.8 


que indica que la variabilidad de ambos indicadores es similar y que estan relacionados 
negat.ivamente, ya que la covarianza es negat-iva. 


9.3 Dependencia entre variables aleatorias 

9.3.1 Esperanzas condicionadas 

La esperanza de un vector xi condicionada a un valor concreto de otro vector x 2 es la 
esperanza de la distribucion de xi condicionada a x 2 y viene dada por: 

E [xi|x 2 ] = / xi/(x!|x 2 ) dxi. 
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En general esta expresion sera una funcion del valor x 2 . Cuando x 2 es un valor fijo, la 
esperanza condicionada sera una constant-e. Si x 2 es una variable aleatoria, la esperanza 
condicionada sera tambien una variable aleatoria. 

La esperanza de un vector aleat-orio X| puede calcularse a partir de las esperanzas condi- 
cionales en dos et-apas: en la primera calculamos la esperanza de xi condicionada a x 2 . El 
result-ado es una funcion aleatoria que depende de la variable aleatoria x 2 . En la segunda, 
calculamos la esperanza de esta funcion con relacion a la distribution de x 2 . Entonces: 

L’(xi) = E [_E(xi|x 2 )] . (9.19) 


Esta expresion indica que la esperanza de una variable aleatoria puede obtenerse prome- 
diando las esperanzas condicionadas por sus probabilidades de aparicion o, en otros terminos, 
que la esperanza de la media condicionada es la esperanza marginal o biconditional. 

Demostracion 


E’(xi) = / Xi/(x!)rfxi = / / Xi/(xix 2 )dxidx 2 = / / xi/(xi|x 2 )/(x 2 )dxidx 


/( x 2) 


xi/(xi|x 2 )dxi 


dx 2 = j E [xi|x 2 ] /(x 2 )dx 2 


= E [_E(xi|x 2 )] . 


9.3.2 Varianzas condicionadas 

La varianza de X! condicionada a x 2 se define como la varianza de la distribution de X! 
condicionada a x 2 . Ut-ilizaremos la notation 


Var(x. i|x 2 ) = V l/2 

y est-a mat-riz tendra las propiedades ya est-udiadas de una matriz de covarianzas. 

Si X! es escalar, su varianza puede calcularse tambien a partir de las propiedades de la 
distribution condicionada. En concret-o, puede expresarse como suma de dos terminos: el 
primero asociado a las medias condicionadas y el segundo a las varianzas condicionadas. 
Para obt-ener esta expresion partimos de la descomposicion: 


X! - Hi = X! - E(x l/x 2 ) + E(x l/x 2 ) - P! 

donde x 2 es un vector aleat-orio cualquiera para el que la esperanza condicionada E(x i/x 2 ) 
es finita. Elevando al cuadrado esta expresion y tomando esperanzas en ambos miembros: 

var(x 1 ) = E(x 1 - E(x i/x 2 )) 2 + E(E(x i/x 2 ) - + 2 E [(xi - E(x i/x 2 )(£?(a;i/x 2 ) - pj] 

el doble producto se anula, ya que 

E [(xi - E(xi/x 2 ))(E(xi/x 2 ) - /i^} = 
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= J ( E (x i/x 2 ) - Hi) 

al ser nula la integral entre corchetes. Por otro lado, como por (9.19): 

E [E(x i/x 2 )] = E(x i) = Hi, 

el segundo termino es la esperanza de la diferencia al cuadrado entre la variable aleatoria 
E(x i/x 2 ), que dependera del vector aleatorio x 2 y su media Hi- Por tanto: 

var(x i) = E [var(x i/x 2 )] + var [E(x i/x 2 )] (9.20) 

Esta expresion se conoce como descomposicion de la varianza, ya que descompone la 
variabilidad de la variable en dos fuentes principales de variation. Por un lado, hay vari- 
abilidad porque las varianzas de las distribuciones condicionadas, var(x i/x 2 ), pueden ser 
distintas, y el primer termino promedia estas varianzas. Por otro, hay tambien variabilidad 
porque las medias de las distribuciones condicionadas pueden ser distintas, y el segundo 
termino recoge las diferencias entre las medias condicionadas, E(x i/x 2 ), y la media total, 
Hi, mediant-e el termino var [E(x i/x 2 )] . Observemos que la varianza de la variable x \ es, en 
general, mayor que el promedio de las varianzas de las distribuciones condicionadas, debido 
a que en las condicionadas la variabilidad se calcula respecto a las medias condicionadas, 
E{x i/x 2 ), mientras que var(x i) mide la variabilidad respecto a la media global, Hi- Si todas 
las medias condicionadas son iguales a /q, los que ocurrira por ejemplo si x \ e x 2 son inde- 
pendientes, entonces el termino var [E(x i/x 2 )] es cero y la varianza es la media ponderada 
de las varianzas condicionadas. Si E{x i/x 2 ) no es constante, entonces la varianza de x\ sera 
tanto mayor cuanto mayor sea la variabilidad de las medias condicionadas. 

Esta descomposicion de la varianza aparece en el analisis de la varianza de los modelos 
lineales univariantes: 


(aq - E(zi/x 2 ))/(zi/x 2 )cfei 


/ (x 2 )dx 2 = 0 


- x) 2 /n = J^(aq - Xi) 2 /n + y^{x t - x) 2 /n 

donde, en esta expresion, Xi es la estimation de la media condicionada en el modelo lineal. 
La variabilidad total, que equivale a va:r(x \ ), se descompone en dos terminos incorrelados. 
Por un lado, el promedio de las estimaciones de var(aq/x 2 ), que se calculan promediando 
las diferencias entre la variable y la media condicionada. Por el otro, la variabilidad de las 
esperanzas condicionales respecto a la media global, que se estiman en los modelos lineales 
por las diferencias x t — x. 

9.3.3 Matriz de correlacion 

Se define la matriz de correlacion de un vector aleatorio x con matriz de covarianzas V.„ . por 

R x = D _ 1 / 2 V a .D _1/2 

D = diag (al,...,a 2 p ) 


donde 



270 


CAPITULO 9. DISTRIB UCIONES MULTIVARIANTES 


es la matriz diagonal que contiene las varianzas de las variables. La matriz de correlacion 
sera pues una matriz cuadrada y simetrica con unos en la diagonal y los coeficientes de 
correlacion entre los pares de variables fuera de la diagonal. Los coeficientes de correlacion 
simple o coeficientes de correlacion lineal, vienen dados por 

_ Ojj 


La matriz de correlacion es tambien semidefinida positiva. Una medida global de las cor- 
relaciones lineales existentes en el conjunto de variables es la dependencia, definida por 

D x = 1 - |Ra;| 1/(p_1) 

cuya interpretacion para variables aleatorias es analoga a la presentada en el capi'tulo 3 para 
variables estadi'sticas. Para p — 2 la matriz R, tiene unos en la diagonal y el coeficiente p r2 
fuera, R x = 1 — p \ 2 , y la dependencia D x = 1 — (1 — p{ 2 ) = p\ 2 coincide con el coeficiente de 
determinacion. Se demuest-ra de la misma forma que se hizo en el capi'tulo 3 que en el caso 
general, p > 2, la dependencia es un promedio geometrico de coeficientes de determinacion. 


9.3.4 Correlaciones Multiples 

Se denomina correlacion multiple de una variable escalar, y. y un vector de variables x a una 
medida de la capacidad de prever y mediante una funcion lineal de las variables x. Suponien- 
do, sin perdida de generalidad, que las variables tienen media cero, definimos la mejor predic- 
cion lineal de y como la funcion /3 ; x que minimiza E(y — /Lx)”. Puede demost-rarse que 
/3 = siendo V x la matriz de covarianzas de x y V.,. y el vector de covarianzas entre 

y y x. El coeficiente de correlacion simple entre las variables escalares y y /Lx se denomina 
coeficiente de correlacion multiple. 

Puede demostrarse que si llamamos a los terminos de la matriz de covarianzas V de 
un vector de variables y a' 1 a los terminos de la matriz V 1 , el coeficiente de correlacion 
multiple, Ri.R entre cada variable (i) y t-odas las demas (R) se calcula como: 



1 

OijO'i 


En particular, si E(y |x) es una funcion lineal de x entonces E(y |x) = /Lx y R} r puede 
tambien calcularse como l—a 2 y \ x /cry, donde a^ x es la varianza de la distribucion condicionada, 
y|x y la, varianza marginal de y. 


9.3.5 Correlaciones Parciales 

Supongamos que obtenemos la mejor aproximacion lineal a un vector de variables Xj de 
dimensiones pi x 1 a partir de otro vector de variables x 2 de dimensiones p 2 x 1 . Suponiendo 
que las variables tienen media cero, esto implica calcular un vector Bx 2 donde B es una ma- 
triz de coeficientes de dimensiones pi x p 2 de manera que Y^=i E( x ij ~ x 2 ) 2 sea minima, 

donde x\ 3 es el componente j del vector xi y fl J la fila j de la matriz B. Llamemos Vi/ 2 a la 



9.4. LA DISTRIB UCION MULTINOMIAL 


271 


matriz de covarianzas de la variable xi— Bx 2 . Si estandarizamos esta matriz de covarianzas 
para pasarla a correlaciones, los coeficientes de correlacion resultantes se denominan coefi- 
cientes de correlacion parcial entre los componentes de dadas las variables x 2 . La matriz 
cuadrada y simetrica de orden p 1 

fli/ 2 = D-fv^D-f 

se denomina matriz de correlaciones parciales entre los componentes del vector Xi cuando 
controlamos (o condicionado a) el vector x 2 , donde Dx/ 2 = diag(u^ 2 , uL 2 ) y aU 2 es 
varianza de la variable X\j — /3'x 2 . 

En particular si £'(x 1 |x 2 ) es lineal en x 2 , entonces £'(x 1 |x 2 ) = Bx 2 y V es la matriz 
de covarianzas de la distribution condicionada de x 1 1 x 2 . 

9.4 LA DISTRIBUCION MULTINOMIAL 

Supongamos que observamos element-os que clasificamos en dos clases, Ay A. Por ejemplo, 
clasificamos los recien nacidos en un hospital como hombre (A) o mujer (A), los dias de nn 
mes como lluviosos (A) o no (A), o los element-os fabricados por una maquina como buenos 
(A) o defectuosos (A). Suponemos que el proceso que genera element-os es estable, existiendo 
un probabilidad const-ante de aparicion de los element-os de cada clase, P{A) = p = cte, y 
que el proceso no tiene memoria, es decir P(A\A) = P(A\A). Supongamos que observamos 
element-os al azar de este proceso y definimos la variable 

_ J 1, si la observation pert-enece a la clase A 
\ 0, en otro caso 

esta variable sigue una distribution binomial puntual, con P(x = 1) = p y P(x = 0) = 1 — p. 
Si observamos n element-os en lugar de uno y definimos la variable y = Xa=i x h es decir, 
contamos el numero de element-os en n que pert-enece a la primera clase, la variable y sigue 
una distribucion binomial con 

T) ^ 

P(y = r)= - ., p r (l-p)"- r . 

r\{n — r)l 

Podemos generalizar esta distribution permitiendo G clases en lugar de dos, y llamamos p 
al vector de probabilidades de pertenencia a las clases, p —(pi, ...,pc)', donde J^Pj = 1. 
Definiremos ahora las G variables aleat-orias: 

_ J 1, si la observation pert-enece al grupo j 
3 y 0,en otro caso 

y el result-ado de una observation es un valor del vector de G- variables x = ( x \ , ...,xa)' , que 
sera siempre de la forma x = (0, ..., 1, ...0)', ya que solament-e una de las G componentes puede 
t-omar el valor uno, el asociado a la clase observada para ese element-o. En consecuencia, los 
componentes de est-a variable aleat-oria no son independientes, ya que est-an ligadas por la 
ecuacion 

G 

'52 X J = 1 - 

3 = 1 
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Para describir el resultado de la observation bastarfa con definir G — 1 variables, como se 
hace en la distribution binomial donde solo se define una variable cuando hay dos clases, 
ya que el valor de la ultima variable queda fijada al conocer las restantes. Sin embargo, 
con mas de dos clases es constumbre trabajar con las G variables y la distribution de la 
variable multivariante asf definida se denomina multinomial puntual. Tiene como funcion de 
probabilidades 

P(xi,..,x G ) = p x 1 1 ...p x G a = y[p x / 

En efecto, como solo una de las Xj es distinta de cero, la probabilidad de que la j-esima sea 
uno es precisamente pj, la probabilidad de que el elemento observado pertenezca a la clase 
j. Generalizando esta distribution, sea (xi, ..., x n ) una muestra de n valores de esta variable 
multinomial puntual que resulta al clasificar n element-os de una muestra en las G clases. Se 
denomina distribution multinomial a la de la variable suma: 

n 
i= 1 

que indica el numero de element-os en la muestra que corresponden a cada una de las clases. 
Los componentes de esta variable, y =()/] , ..., yc)' ■ representan las frecuencias observadas de 
cada clase y podran t-omar los valores y r = 0, 1, ...n, pero estan sujetos a la restriction: 

^2vi = n, (9.21) 

y su funcion de probabilidad sera: 


77 t 

P(y 1 =n 1 ,..,y G = n G ) = —— — tpT --P c" 

nil... no' 

donde n, = n. El termino combinatorio t-iene en cuenta las permutaciones de n element-os 
cuando hay n±, ...,n G repet-idos. Se comprueba que 

E( y) =np = n y 


y 


Var{ y) —n [diag( p) — pp ; ] = diag(p y ) — RyRy 

donde diag( p) es una mat-riz cuadrada con los element-os de p en la diagonal y ceros fuera 
de ella. Esta matriz es singular ya que los element-os de y estan ligados por la ecuacion de 
restriction (9.21). Es facil comprobar que las distribuciones marginales son binomiales, con: 


E bj\ = n Pv DT [Vj\ = 

Ademas, cualquier distribution condicionada es multinomial. Por ejemplo, la, de G — 1 
variables cuando yc toma el valor fijo n G es una multinomial en las G — 1 variables rest-ant-es 
con tamano muestral ri = n - - no- La distribution condicionada de y\ . y 2 cuando y% = 
mi , . . . , yc = n G es una binomial, con n' — n — ns — — ... — no, etc. 
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Ejemplo 9.3 En un proceso de control de calidad los elementos pueden tener tres tipos 
de defectos: leves (%i), medios (A 2 ), graves ( 7 L 3 ) y se conoce que entre los elementos con 
defectos la probabilidad de estos errores es p\ = P(Ai) = 0,7; p 2 = P(A 2 ) = 0 , 2 ; y 
p 3 = P(A 3 ) = 0, 1. Calcular la probabilidad de que en los proximos tres elementos defectuosos 
haya exactamente uno con un defecto grave. 

Los defectos posibles en los tres siguientes elementos son, sin tener en cuenta el orden 
de aparicion : 

AiAiA 3 ; AiA 2 A 3 ; A 2 A 2 A 3 
y sus probabilidades segun la distribucion multinomial seran: 

P(xi = 2,x 2 = 0,x 3 = 1) = ^jjjyyO, 7 2 • 0 , 2 ° ■ 0, 1 = 0, 147 

P(xi = l,x 2 = l,x 3 = l) = yyYjyyO, 7 • 0 , 2 ■ 0, 1 = 0 , 084 

P{xi = 0,x 2 = 2,x 3 = l) = ^| Tj 0,7°-0,2 2 -0,l = 0,012 

Luego: 

p ( X3 = 1) = 0, 147 + 0, 084 + 0, 012 = 0, 243 

Este result-ado puede tambien obtenerse considerando la Binomial (/I 3 /I 3 ) con probabili- 
dades (0, 9; 0, 1) y: 


P (x 3 = 1) 


J ^ 0,l + 0,9 2 = 0,243 


9.5 LA DISTRIBUCION DE DIRICHLET 

La distribucion de Dirichlet se introduce para representar variables que toman valores en- 
tre cero y uno y cuya suma es igual a la unidad. Estos dat-os se conocen como dat-os de 
proporciones (compositional data en ingles). Por ejemplo, supongamos que investigamos el 
peso relativo que los consumidores asignan a un conjunto de atributos de calidad, y que las 
evaluaciones de la importancia de los atributos se realizan en una escala de cero a uno. Por 
ejemplo, con tres atributos un client-e puede dar las valoraciones (0.6, 0,3, 01) indicando 
que el primer atributo t-iene el 60% del peso, el segundo el 30% y el tercero el 10%. Ot-ros 
ejemplos de este tipo de dat-os son la proportion de tiernpo invertido en ciert-as act-ividades 
o la composition en % de las distintas sustancias que contienen un grupo de productos. En 
t-odos estos casos los dat-os son vect-ores de variables continuas x =(aq, ..., xc)' tales que, por 
construction, 0 < Xj < 1 y exist-e la ecuacion de restriction: 

G 

J2 x i = 1 - 

3 = 1 
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Una distribution apropiada para representar este tipo de situations es la distribution de 
Dirichlet, cuya funcion de densidad es: 


f(x u ...,x G ) 


ai — 1 «g-1 

r(a 1 )r(a 2 )...r(a c ) 1 - G 


donde T(.) es la funcion gamma ya = ( a \ , aa)' es el vector de parametros que caracteriza 
la distribution, y 


G 

cto = olI = aj. 

3 = 1 


Se demuestra que 


E(x) = cx/a o = fx x , 


por tanto, los parametros aq indican la esperanza relativa de cada componente y 

Uar(x) =- — (—diagict) — \a.a.'). 

(a?o + 1) OiQ 

Esta expresion indica que la varianza de cada componente es: 


var(xj ) 


aq(a 0 - aj) 
a o( a o + 1) 


y vemos que el parametro a 0 determina la varianza de los componentes y que est-as varianzas 
decrecen rapidamente con a 0 . Las variables de Dirichlet, al igual que las multinomiales, estan 
ligadas por una ecuacion de restriction, con lo que no son linealmente independientes y su 
matriz de covarianzas sera singular. Las covarianzas entre dos componentes son: 


COV^XiXj ) 


aqcq 

tto(a:o + 1) 


y las covarianzas tambien disminuyen con a ( j, pero son mayores cuanto mayores sean las 
esperanzas de las variables. 

El lector puede apreciar la similitud entre las formulas de las probabilidades, medias y 
varianzas para la multinomial y la Dirichlet. Esta similitud proviene de que en ambos casos 
clasihcamos el resultado en G grupos. La diferencia es que en el caso multinomial contamos 
cuant-as observations de n aparecen de cada grupo, mientras que en el de Dirichlet medimos 
la proportion que un elemento contiene de la cada clase. En la distribution de Dirichlet 
el parametro a 0 t.iene un papel similar al tamano muestral y los cocientes o. ? / a 0 a las 
probabilidades. 


9.6 LA NORMAL k-DIMENSIONAL 


La dist-ribucion normal escalar t-iene como funcion de densidad: 

f(x) = (a 2 )' 1/2 (2vr)^ 1/2 exp{-(l/2)(a:-p)V^ 2 }. 
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Figura 9.1: Representation de la distribution Normal bivariante y sus marginales. 

y escribimos x ~ Niji. a 2 ) para expresar que x tiene distribution normal con media pi y 
varianza cr 2 . 

Generalizando esta funcion, diremos que un vector x sigue una distribution normal 
p— dimensional si su funcion de densidad es: 

/(x) = |V| _1/2 (27 t) _ p/2 exp { — (l/2)(x — /x) / V~ 1 (x — pi)} (9.22) 

En la figura 9.1 se muestra el aspecto de una Normal bivariante con fi = (0,0) yV = 

, y sus distribuciones marginales. 

Escribiremos que x ~jV p (/z, V). Las propiedades principales de la normal multivariante 
son: 

1. La distribution es simetrica alrededor de pi. 

La simetria se comprueba sustituyendo en la densidad x por u ± a y observando que 
/(/x + a) =f{fJL- a). 

2. La distribution tiene un unico maximo en pi. 

A1 ser V definida positiva el termino del exponents (x — /x/V 1 (x — pi) es siempre 
posit-ivo, y la densidad /(x) sera maxima cuando dicho termino sea cero, lo que ocurre 
para x = pi. 

3. La media del vector aleat.orio normal es pi y su matriz de varianzas y covarianzas es 

V. 

Estas propiedades, que pueden demostrarse rigurosamente, se deducen de la compo- 
racion de las densidades univariante y multivariante. 

4. Si p variables aleatorias tienen distribution conjunta normal y estan incorreladas son 
independientes. 

La comprobacibn de esta propiedad consiste en tomar en (9.22) la matriz V diagonal 
y comprobar que entonces /(x) = f(x i), ..., f(x p ). 


1 l/y/3 

1/V3 1 
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5. Cualquier vector x normal p — dimensional con matriz V no singular puede convertirse 
mediante una transformation lineal en un vector z normal p — dimensional con vector 
de medias 0 y matriz de varianzas y covarianzas igual a la identidad (I). Llamaremos 
normal p — dimensional estandar a la densidad de z, que vendra dada por: 

/(z) = p^ exp {-?' 2 } = n <-'p^y72 exp {-i z? } (923) 

La demostracion de esta propiedad es la siguiente: al ser V definida positiva exist.e 

una matriz cuadrada A simetrica que consideramos su rafz cuadrada y verifica: 

V = AA (9.24) 

Definiendo una nueva variable: 

z = A^ 1 (x — pi) (9.25) 

entonces x = /x + Az y segun (9.14) la funcion de densidad de z es 

fz( z) = fx(f* + Az) |A| 

y utilizando AV 1 A = I. se obtiene (??) Por tanto, cualquier vector de variables 
normales x en R p puede transformarse en ot.ro vector de R p de variables normales 
independient.es y de varianza unidad. 

6. Las distribuciones marginales son normales. 

Si las variables son independientes la comprobacion de esta propiedad es inmediata. 
La demostracion general puede verse, por ejemplo, en Mardia et. al (1979). 

7. Cualquier subconjunto de h < p variables es normal h— dimensional. 

Es una extension del la propiedad anterior y se demuestra analogament.e. 

8. Si y es (k x 1), k < p, el vector y = Ax, donde A es una matriz (k x p), es normal 
k— dimensional. En particular, cualquier variable escalar y = a'x, (siendo a' un vector 
1 x p no nulo) tiene distribution normal. 

La demostracion puede verse, por ejemplo, en Mardia et. al (1979). 

9. Al cortar con hiperplanos paralelos al definido por las p variables que forman la variable 
vectorial, x, se obt.ienen las curvas de nivel, cuya ecuacion es: 

(x — /x) / V _1 (x — fi) = cte. 

Las curvas de nivel son, por tanto, elipsoides, y definen una medida de la dist.ancia de 
un punt.o al centro de la distribution. Esta medida ha aparecido ya en la description 
de dat.os del capi't.ulo 3 donde estudiamos su interpretation. Se denomina dist.ancia de 
Mahalanobis y la represent aremos por : 

D 2 = (x-/z)'V _1 (x-/z) 


(9.26) 
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Como Lustration, consideremos el caso mas simple de dos distribuciones univariantes 
indicado en la figura 13.3. La observation x=3, indicada con una X, en el grafico, esta 
con la distancia euclidea mas cerca del centro de la distribution A, que es cero, que del 
centra de la B que es diez. Sin embargo, con la distancia de Mahalanobis la distancia del 
punto X a la distribution A que tiene desviacion tipica uno es (3 — 0) 2 /l, mientras que 
la distancia al centro de la B, que tiene desviacion tipica diez, es (3 — 10) 2 /10 2 = 0, 7 2 
y el punto X esta mucho mas cerca, con esta distancia, de la distribution B. Esto es 
consecuencia de que es mucho mas probable que este punto provenga de la distribution 
B que de la A. 

10. La distancia de Mahalanobis se distribuye corno una y 2 con p grados de libertad. 

Para comprobarlo, hagamos la transformation (9.25) y como V 1 = A -1 A -1 se obtiene 
que 

D 2 = z'z = z i 

donde cada z, es JV(0, 1). Por tanto D 1 ~ y 2 . 



Figura 9.2: El punto X esta mas cerca, con la distancia euclidea del centro de la distribution 
A pero con la distancia de Mahalanobis lo esta de la B 

9.6.1 Distribuciones condicionadas 

Particionemos el vector aleatorio en dos partes, x = (x 1 ,x 2 ) / , donde x, es un vector de 
dimension p\ y x 2 de dimension p 2 , siendo p \ + p 2 = p. Particionemos tambien la matriz de 
covarianzas del vector x en bloques asociados a estos dos vectores, como: 

V n V 12 
V 2 i v 22 


V 


(9.27) 


278 


CAPITULO 9. DISTRIB UCIONES MULTIVARIANTES 


donde, por ejemplo, Vn, la matriz de covarianzas del vector xi, es cuadrada de or den pi, Vi 2 , 
la matriz de covarianzas entre los vectores xi y X 2 tiene dimensiones p\ x p 2 , y V 22 , la matriz 
de covarianzas del vector x 2 , es cuadrada de orden p 2 . Queremos calcular la distribucion 
condicionada del vector xi dados los valores del vector x 2 . Vamos a demost-rar que esta 
distribucion es normal, con media: 

E [xi|x 2 ] = Mi + V 12 V 22 (x 2 - /x 2 ) (9.28) 

y matriz de varianzas y covarianzas: 

Var [ Xl |x 2 ] = Vn-V^V^Vai (9.29) 

Para interpretar estas expresiones supongamos primero el caso bivariante donde ambas 
variables son escalares de media cero. Entonces la media se reduce a 

E [xi|x 2 ] = <J 12^22 x 2 

que es la expresion habitual de la recta de regresion con pendiente f3 = a i 2 /cr 22 . La expresion 
de la varianza condicionada alrededor de la recta de regresion es 

var [xi\x 2 ] = (J \\—cj\ 2 I o 22 = cr\(l - p 2 ) 

donde p = a 12/ ^22 es coeficiente de correlacion entre las variables. Esta expresion 

indica que la variabilidad de la distribucion condicionada es siempre menor que la de la 
marginal y la reduction de variabilidad es tanto mayor cuanto mayor sea p 2 . 

Supongamos ahora que X\ es escalar pero x 2 es un vector. La expresion de la media 
condicionada proporciona la ecuacion de regresion multiple 

E [xi|x 2 ] = + 0 (x 2 - fj, 2 ) 

donde (3 = V 22 ' V 21 siendo V 21 el vector de covarianzas entre x \ y los componentes de x 2 . 
La varianza de esta distribucion condicionada es 

var [aq|x 2 ] = cr^(l — R 2 ) 

donde R 2 = V , 2 V 22 ' V 2 1 / a\ es el coeficiente de correlacion multiple. 

En el caso general, estas expresiones corresponden al conjunto de regresiones multiples 
de los componentes de xi sobre las variables x 2 , que se conoce como regresion multi var iant-e. 
Demostracion La expresion de la distribution condicionada es 

ft | \ /(x i,x 2 ) 

/( 1 ) = _ bxiT 

Como las distribuciones / (xi,x 2 ) y / (x 2 ) son normales multivariantes al hacer el cociente 
quedara un cociente entre determinantes y la differentia entre los exponentes de las normales. 
Comencemos calculando el exponente resultant.e. Sera 

(x - n)' V- 1 (x - fi) - (x 2 - H 2 )' V 22 1 (x 2 - n 2 ) 


(9.30) 
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Vamos a descomponer la primera forma cuadratica eii los terminos correspondientes a xiy 
X 2 - Para ello particionaremos (x — /x) como (xi — /x x , x 2 — /x 2 ) / . particionaremos V como en 
(9.27), y utilizaremos la expresion de la inversa de una matriz particionada (vease la seccion 
2.2.3). Realizando el producto se obtiene. 

(x - /x)' V ^ 1 (x - /x) = (x 1 -/x 1 ) , B _ 1 (x 1 -/x 1 )-(x 1 -/x 1 ) , B - 1 V 12 Vf 2 1 (x 2 -/x 2 )- 

- (x 2 - M 2 ) V 2 2 1 V 2 iB " 1 (xj - Ml) + ( X 2 - M 2 ) V22 1 (x 2 - /X 2 ) - 
+ ( x 2 — M2) A 2 2 L A 2 iB 1 Ai 2 A 22 1 (x 2 — /x 2 ) 

donde B = (Vn- Vi 2 V7 2 1 V 2 i) , que es la expresion utilizada en (9.29). El cuarto termino de 
esta expresion se cancela en la diferencia (9.30), y los otros cuatro pueden agruparse como 

( X 1 - Ml - V12V22 1 (x 2 - fJL 2 ))' B 1 (xi - /X, - V12V22 1 ( x 2 - M 2 )) • 

Esta expresion muestra que el exponente de la distribution corresponde a una variable 
normal con vector de medias y matriz de covarianzas igules a los indicados en (9.28) y (9.29). 
Vamos a comprobar que el cociente de determinantes conduce tambien a la misma matriz 
de covarianzas. Ut-ilizando que, segun la seccion 2.3.5, |V| = | V22 1 |Vn— Vi 2 V 72 1 V 2 i| = 

I V22 1 | B | . Como en el denominador tenemos |V2 2 | , el cociente proporciona el termino unico 
| B | . Finalmente, quedara en termino {2n) p/l2 ~ P2 ^ 2 ={2n ) Pl / 2 . 

En conclusion, la expresion result ante sera la de la funcion de densidad normal multi- 
variante de orden pi, con vector de medias dado por (9.28) y matriz de covarianzas dada por 
(9.29). ■ 

Ejemplo 9.4 La distribucion de los gastos en dos productos ( x , y) de un grupo de consumi- 
dores sigue una distribucion normal bivariante con medias respectivas 2 y 3 euros y matriz 
de varianzas y covarianzas 

1 0,8 
0,8 2 

Calcular la distribucion condicionada de los gastos en el producto y para los consumidores 
que gastan 4 euros en el producto x. 

La distribucion condicionada f (y/x = 4) = / (4, y) / f x ( 4). La distribucion marginal de 
x es normal, N( 2, 1). Los terminos de la distribucion conjunta f(x,y ) seran: 

|V | 1/2 = (01O2 (l - Q 2 )) 1/2 = 0 \ 02 \J 1 - Q 2 

v -i _ 1 crl -gcr 2 a l 

a\a\ (1 - Q 2 ) -Q<J 2 cti a\ 

donde en este ejemplo a\ = 1, a 2 = 2, y g = 0,8/ x/2 = 0,566. El exponente de la normal 
bivariante f(x,y ) sera: 

1 ( ( x-pA 2 f y- y 2 \ 2 2 (x - Pi) (y- l 2) 1 _ A 

2{l-g 2 )\\ a x ) + \ a 2 ) 6 a^ 2 j 2 
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En consecuencia, tendremos: 


f(y\x) = 


^cti(T 2 a /1 - P 2 ) (27 r) 1 exp { ^ } 

^r 1 (27r) _1 exp{-± 


02 




eX P i “o 5 


donde el termino resultante en el exponente, que llamaremos IA, sera: 


B = 


B = 


1 — Q 2 
1 

1 — g 2 
1 


x - Ad 
0d 

y - 92 

0- 2 

y - 


2/ “Ad V _ - Pi) (y - /^ 2 ) 


- Q 


<72 


s - Pi 

<7l 


<7io- 2 


•g - Pi 
<7 1 


(i ~ e 2 ) 


<72 


Ad + 2— (a - Ad) 

<7l 


^(i-p 2 ) L 

Este exponente corresponde a una distribution normal con media: 


E[y\x 


. (72 

Ad + 2 — 

<7l 


- /d) 


que es la recta de regresion, y desviacion ti'pica: 


DT [y\x} = a 2 \] 1 - Q 2 


Para x = 4. 


B[!/|4]=3+(M).^ ( 4_2)=4,6. 

Como hay una correlacion positiva de 0,566 entre los gastos en ambos productos los con- 
sumidores que gastan mas en uno tambien en promedio tienen gastos medios mas altos en 
el otro. La variabilidad de la disribucion condicionada sera: 


Var [y | 4] = <x 2 (l - g 2 ) = 2 (1 - 0, 32) = 1, 36 

y sera menor que la varianza de la marginal porque cuando condicionamos tenemos mas 
information. 
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9.7 DISTRIBUCIONES ELlPTICAS 


La distribution normal multivariante es un caso particular de una familia de distribuciones 
muy utilizadas en el analisis multivariante: las distribuciones elfpticas. Para introducirlas, 
consideremos primero el caso mas simple de las distribuciones esfericas 

9.7.1 Distribuciones esfericas 

Diremos que una variable vectorial x = (aq , ...,x p )' sigue una distribution esferica si su fun- 
cion de densidad depende de la variable solo por la distancia euch'dea x'x = i x 1- Esta 
propiedad implica que: 

1. Los contornos de equiprobabilidad de la distribution son esferas con centro en el origen. 

2. La distribution es invariante ante rotaciones. En efecto, si definimos una nueva vari- 
ables y = Cx, donde C es una matriz ortogonal, la densidad de la variable y es la 
misma que la de la variable x. 

Un ejemplo de distribution esferica, estudiado en la section anterior, es la funcion de 
densidad Normal estandar multivariante, cuya densidad es 



2 


15 



0.5 


0 

5 



5 


-5 -5 


Figura 9.3: Densidad de la normal estandar bivariante 


Esta densidad esta representada en la figura 9.3, y las dos variables escalares que forman 
el vector son independientes. Este propiedad es caracterfstica de la normal, ya que, habit- 
ualmente, los componentes de las distribuciones esfericas son dependientes. Por ejemplo, la 
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distribution multivariante de Cauchy, dada por 

/« =^pi)7-p + X ' X )" (P+1>/2 (9- 31 ) 

tiene colas mas pesadas que la normal, como en el caso univariante, y es facil comprobar que 
esta funcion no puede escribirse como producto de distribuciones univariantes de Cauchy, 
por lo que sus componentes aunque estan incorrelados no son independientes. 

Otra distribution esferica importante es la doble exponential. En el caso bivariante esta 
distribution tiene funcion de densidad 

f(x) = — exp( — Vx'x) 

JK ’ 2vr ; 

y ai mque la funcion de densidad puede parecer similar a la normal tiene colas mucho mas 
pesadas. La hgura 9.4 muestra esta distribution. 



Figura 9.4: Dendidad de la doble exponential bivariante 


9.7.2 Distribuciones elfpticas 

Si la variable x sigue una distribution esferica y A es una matriz cuadrada de dimension p 
y m un vector de dimension p. la variable 

y = m + Ax (9.32) 

se dice que sigue una distribution eh'ptica. Como una variable esferica tiene media cero y 
matriz de covarianzas cl, es inmediato que una variable eh'ptica tiene media m y matriz de 
covarianzas V =cAA' . Las distribuciones elfpticas tienen las propiedades siguientes: 


9.8. (*)LA DIS TRIB UCION DE WISHART 
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1. Su funcion de densidad depende de la variable a traves de la distancia de Mahalanobis: 

(y - m)'V _1 (y - m) 

2. Los contornos de equiprobabilidad de la distribucion son elipsoides con centro en el 
punto m. 

La distribucion normal multivariante general es el miembro mas conocido de las distribu- 
ciones elfpticas. Otro miembro de esta familia es la distribucion t multivariante. Aunque 
existen distintas versiones de esta distribucion, la mas habitual se construye dividiendo cada 
componente de un vector de variables normales multivariantes N p ( m, V) por la misma vari- 
able escalar: la raiz cuadrada de una y 2 dividida por sus grados de libert-ad. Es obvio, por 
construction, que las marginales seran t de Student, y se obtiene que la funcion de densidad 
de la variable multivariante resultant-e es 

/(y) = (J)PAr(|) |Vrl/2 [1 + (y ” (9.33) 

donde el escalar v se denomina grados de libert-ad. Observemos que si hacemos v — 1, m = 0, 
V = I, obt-enemos la distribution de Cauchy multivariante (9.31) que tiene simetrfa esferica. 
Para v > 2 la media de la distribucion es m y la varianza v/ (v — 2)V. 

Las distribuciones elfpticas comparten muchas propiedades de la normal: las distribu- 
tions marginales y condicionadas son t-ambien elfpticas, y las medias condicionadas son 
funcion lineal de las variables condicionant-es. Sin embargo, la normal tiene la propiedad de 
que es el unico miembro de la familia donde si la matriz de covarianzas es diagonal todas las 
variables component-es son independient-es. El lector int-eresado en la demostracion de est-e 
resultado puede encontrarlo en Muirhead (1982). 

9.8 (*)LA DISTRIBUCION DE WISHART 

9.8.1 Concepto 

La distribution de Wishart se ut-iliza para representar la incertidumbre respecto a una ma- 
triz de varianzas y covarianzas de variables normales multivariantes. En el caso escalar, la 
distribution que representa esta incertidumbre es la ji-cuadrado de Pearson, y 2 , y la dis- 
tribution de Wishart est-andar puede considerarse como una generalization multivariante de 
esta distribucion. 

Recordemos los resultados univariantes: Si (x\. ...x m ) es un conjunto de variables aleato- 
rias normales independient-es 1V(0, cr 2 ), la suma est-andarizada de sus cuadrados, a 2 Y17=\ x 7 
sigue una distribution xL- Tambien decimos que w = Y77L \ x % sigue una distribucion rtiy 2 ,. 
La densidad de una distribucion y 2 n es un caso particular de la Gamma con parametros 
(|, y) y tiene funcion de densidad dada por 



/(x 2 ) = Mx 2 ) f ” 1 exp 


(9.34) 
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donde k es una constant-e. Por otro lado, la distribution de la variable w = Y^iLi x \ ser ^ 
Gamma con parametros (yC: y) , y su densidad tendra la forma: 

f(w) = k (<r 2 ) 2 exp | — . (9.35) 

Consideremos ahora un conjunto de m vectores aleatorios, (x| . ..., x m ), de dimension p 
con la misma distribution jV p (0, 1 ). La estimation de su matriz de varianzas y covarianzas 
se obtendra de E"l|X,x'/m, y el uumerador de est-a expresion 

W = E™ lX ,x' (9.36) 

que es una matriz cuadrada p x p, simetrica y definida posit-iva, decimos que sigue una 
distribution Wishart- con m grados de libert-ad. Esta afirmacion debe interpretarse en el 
sentido de que la distribution conjunta de los \p(p + 1) element-os distint-os de W es 

f(w 11 , ,w pp ) = c|W|*' m_p_1 ^ 2 exp j-^frwj (9.37) 

donde c es una constant-e para que la funcion int-egre a uno (vease Seber, 1984). Observemos 
que para p = 1 se obtiene (9.34). Escribiremos W ~ 14), (m), donde p indica que se trata 
de la distribution de los element-os de una matriz cuadrada y simetrica de orden p, y m 
son los grados de libert-ad. Observemos que esta distribution depende unicamente de las 
dos medidas escalares del tamano de la matriz: la t-raza y el determinante. Por tant-o, todas 
las combinaciones de element-os de la matriz que conduzcan a los mismos valores de estas 
medidas de tamano t-ienen la misma probabilidad. 

Consideremos ahora m vectores aleatorios (x, , ..., x m ) de una distribucion A),(0, E), donde 
hemos ut-ilizado el sfmbolo E en lugar de V para representar la matriz de covarianzas para 
evit-ar confusiones cuando esta distribucion se ut-ilice en el analisis bayesiano del capftulo 
siguient-e. La distribution de los element-os de la matriz 

W = E ™ lXi x' (9.38) 

es la distribution Wishart- con m grados de libertad y matriz de parametros E, dada por 

f(w n, ,Wpp) = c|S| -m / 2 |W| ( ' m-p_1 ^ 2 exp |-ibrE" 1 w| . (9.39) 

En general, si una matriz cuadrada y simetrica sigue la distribution (9.39), donde E es una 
matriz simetrica ( p x p) no singular definida posit-iva de componentes constantes, diremos 
que sigue la distribucion Wishart con rn grados de libert-ad y matriz de parametros E, y 
escribiremos W ~ 14), (m, E). Observemos que para p = 1 esta expresion se reduce (9.35), y 
si hacemos E = 1, la densidad (9.39) se reduce a (9.34). La figura 9.5 present-a un ejemplo 
de esta distribucion 
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9.8.2 Propiedades de la distribucion 

La distribucion de Wishart t-iene las propiedades siguientes: 
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1. La esperanza de la distribucion es: 


E [W] = mS 


lo que implica que W jm tiene esperanza E. 

2. La suma de dos distributions y 2 independientes es otra distribucion x 2 con grados de 
libertad la suma de ambas. Analogamente, si Wj ~ W p (mi, E) y W 2 ~ Wp(m 2 , E) son 
independientes, entonces W x +W 2 ~ W p (rrii + m 2 , E). Est-e resultado es consecuencia 
inmediata de la definition de la distribution por (9.34). 

3. Si A es una matriz h x p de constantes, y W ~ W p (m, E), la distribution de AWA' ~ 

A _1 EA /_1 ). 


En efecto, por (9.38) la variable AW A sera 

m m 

a x *x- a' = Y y iy'i 

i — 1 i — 1 

donde ahora y, es A T (0. ASA 7 ), y aplicando la definition de la distribution Wishart se 
obt-iene el resultado. 


4. Si S es la matriz de varianzas y covarianzas muestral 

S = -X 7 PX 

n 

donde P = I — ^11' es idempotente, entonces 

nS ~W p (n- 1,E). 


Est-a expresion indica que si definimos el estimador 


S 



1 ) 


XPX 


n 

(n - 1) 


S 


su esperanza sera E, y S sera un estimador centrado para la matriz de varianzas. 
Podemos escribir que (n — 1)S ~ W p (n — 1,E). Est-e resultado es analogo al del 
caso escalar: ( n — l).? 2 , donde s 2 es el estimador centrado de la varianza, sigue una 
distribution u 2 x 2 _ 1 . 
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9.9 LA T 2 DE HOTELLING 

Si x es un vector aleatorio jV p (/z, V), la variable (x — /i,)'V -1 (x — /x) es una y 2 con p 
grados de libert-ad. Si sustituimos V por su estimation S, la matriz de varianzas muestral 
dividiendo por n — 1, la distribution que se obtiene se denomina T 2 de Hotelling. En general, 
si x ~ N p (r, V) y (n — 1)S ~ W p (n — 1, V), la distribution de la variable escalar: 

T 2 = (x-/x)'S -1 (x-/x) (9.40) 

que representa la distancia de Mahalanobis entre una variable y su media poblacional, pero 
calculada con la matriz de covarianzas estimada, se denomina distribution T 2 de Hotelling 
con p y n — 1 grados de libert-ad. Diremos que T 2 ~ T 2 (p, n — 1). Asintoticamente, como 
S — > V, T 2 converge a la distancia de Mahalanobis y la distribution de Hotelling a la dis- 
tribution x'p- Por tanto, para n grande, la distribution de Hotelling es muy similar a una 
y 2 . Para tamanos muestrales mas pequeiios tiene una mayor variabilidad que la y 2 , como 

consecuencia de la mayor incertidumbre al utilizar la matriz estimada, S, en lugar de la 
matriz de covarianzas verdadera, V. 

Si x es la media muestral, como x ~ 7V p (/x, -V), la distribution de 

(x-^)'^lj (x - /x) = ra(x - /x)' s _1 (x-/x) 


es tambien una T 2 de Hotelling. Observemos que si p = 1, la T 2 se reduce a: 


T 2 = n ( X - 9) 2 = t 2 
s 2 


(9.41) 


y coincide con el est-adist-ico t de Student. Por tanto T 2 (l,m) = t 2 n . 

La distribution de Hotelling no se tabula, ya que con una simple transformation se reduce 
a la distribution F del analisis de la varianza de Fisher. Se demuest-ra (vease Seber, 1984 o 
Muirhead, 1982) que: 


Fp '”- p = i^i) T2(p ’ n-1) (9A2) 

lo que permite calcular la distribution de T 2 en funcion de las tablas de la distribution 
F. Este result-ado es consist-ent-e con (9.42), ya que, asintot-icament-e, pF p n _ p t-iende a una 
distribution y 2 . La figura (??) muestra un ejemplo de la distribution de Hotelling comparada 
con la Xp- Vemos que para tamano muestral muy pequeno, n = 15, las colas de la distribution 
son mas planas que las de la ji-cuadrado indicando la mayor incertidumbre exist-ent-e, pero 
para n=50, ambas son ya muy similares. La aproximacion depende del cocient-e n/p, y si 
este es grande, mayor de 25, podemos aproximar bien la distribution de Hotelling mediant-e 
la ji-cuadrado. 
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Figura 9.5: Distribucion Wishart dibujada en funcion de la traza y el determinante 



Figura 9.6: La distribucion de Hotelling para dos valores del tamaiio muestral y la distribu- 
cion ji-cuadrado. 
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9.10 DISTRIBUCIONES MEZCLADAS 


Los datos multivariantes son frecuent-ement-e heterogeneos. Por ejemplo, si observamos el 
gasto en distint-os productos en una muestra de consumidores, es esperable que haya grupos 
de consumidores con patrones de gasto distintos: los consumidores sin hijos respecto a que 
las que los tienen, o los jovenes respecto a los ancianos. En general, si una poblacion donde 
hemos definido una variable aleatoria vectorial, x, puede subdividirse en G estratos mas 
homogeneos y llamamos tt,, a la proporcion de element-os en el estrat-o i (EiLi = 1) y /*( x ) 
a la funcion de densidad de la variable en el estrat-o i, la funcion de densidad en t-oda la 
poblacion vendra dada por la mezcla de densidades 


G 


/( x ) = J^/i( x )- 

i= 1 


(9.43) 


Para justificar esta distribucion, notese que observar un element-o al azar de esa poblacion 
puede plant-earse en dos et-apas. En la primera, seleccionamos el estrat-o al azar mediant-e 
una variable escalar, g, que t-oma los valores 1 con probabilidades tt , , . . . , ttq . En la 

segunda, seleccionamos aleatoriamente el element-o de la poblacion seleccionada, /)(x). La 
probabilidad de que el elemento seleccionado tome un valor x <E A sera 


G 

P(x e A) = p ( x e a /9 = i)P(g = i) 

i= 1 


y llamando tt, = P(g = i), la distribucion marginal de la variable x cuando no se conoce la 
variable g viene dada por (9.43). 

Las figuras 9.7 y ?? presentan ejemplos de distribuciones obtenidas como mezclas de dos 
distribuciones univariantes con proporcion de mezcla 50% (tT| = 7 r 2 = .5). En la figura 
9.7 las dos distribuciones de part-ida son normales con la misma media y diferente varianza. 
La distribucion resultant-e tiene la misma media y una varianza que es el promedio de las 
varianzas de las distribuciones. Observemos que la distribucion mezclada no es normal. En 
la figura ?? las distribuciones t-ienen dist-inta media y varianza. Como comprobaremos ahora 
la media es en este caso el promedio de las medias pero la varianza tiene una expresion mas 
complicada porque ademas de la variabilidad de las distribuciones con respecto a sus medias 
se anade la variabilidad debida a las diferencias entre las medias. 
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Mezcla al 50% de dos distribuciones normales con distinta media y varianza 

Los parametros de la distribucion de la variable mezclada (//, V), o marginal, se obtienen 
facilmente conocidos las medias /i, y matrices de varianzas V, : de las distribuciones que 
generan la mezcla, o condicionadas. 

1. La media de la distribucion mezclada o media de la distribucion marginal es 

G 

( 9 - 44 ) 

i= 1 

La demostracion de este resultado es inmediato aplicando las propiedades de la es- 
peranza condicional (9.19). Introduciendo la variable de clasificacion g, tenemos que, 
como E(x/g=i ) = 

G 

E(x) =E g E x/g (x ) =E g (Hi) = 53^ 

i= 1 

2. La matriz de varianzas y covarianzas de la distribucion marginal viene dada por 

G G 

V=^tt iVi + ^7ri(/i i -/z)(/u i -/z)' (9.45) 

Z— 1 Z= 1 

Para demostrar este resultado, introduciendo que 

V =E [(x - /x)(x - fi)’] = E [(x - ^ ^ - fi)(x ~ Mi + Mi - m)'] 

y aplicando de nuevo las propiedades de la esperanza condicional (9.19), obtenemos 
que 

E x/y [(x - Mi + AL - M)(x - Mi + Mi - AO'] = V* + (Mi - M)(Vi ~ AO' 

y tomando ahora la esperanza de esta cantidad respecto a la distribucion de g se obtiene 
el resultado deseado. 
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La expresion (9.45) puede interpretarse como una descomposicion de la variabilidad simi- 
lar a la del analisis de la varianza. La variabilidad total, que es la rnatriz de varianzas y covar- 
ianzas de la marginal, V, se descompone en una variabilidad explicada, Ylf=i + ( /+ ~ R) ( /+ ~ 
fi)\ que tiene en cuenta las diferencias entre las medias de las distribuciones condicionadas 
/x, y la marginal, /x, y una variabilidad no explicada Yhf=\ +;Vj, que es la variabilidad con 
respecto a las distribuciones condicionadas. Por ejemplo, en el caso escalar representado en 
la figura ??, esta expresion se reduce a : 

^ 2 = ^ + - /*) 2 
i= 1 i = 1 

y descompone la varianza de los datos en sus fuentes de variabilidad. En la figura ?? las 
medias son cero y dos y las varianzas uno y cuatro, y tenemos que 

u 2 = .5(1) + .5(4)+. 5(0 - l) 2 + .5(2 - l) 2 = 3.5 

que corresponde a una desviacion t-fpica de 1.87, que esta de acuerdo con la distribution de 
la figura ??. 

En el caso multivariante las mezclas de distribuciones normales pueden representar una 
gama muy amplia de distribuciones. La figura 9.8 presenta un ejemplo. 


9.11 Lecturas complement arias 

El lector puede encontrar exposiciones mas detalladas y mas ejemplos de la t.eon'a aquf 
expuesta en la mayorfa de los textos basicos de estadi'st-ica y en los primeros capi'tulos de la 
mayorfa de los textos multivariantes. En ingles, Flury (1997), Johnson y Wichern (1998) y 
Mardia et al (1979) son buenas exposiciones en orden creciente de complejidad matematica. 

Existen otras distribuciones mas flexibles que la Dirichlet para modelar datos multivari- 
antes de proporciones. Aitchinson (1986) es una buena referencia de distintas distribuciones 
que pueden usarse para este objet.ivo. El lector interesado en ampliar las propiedades de 
las propiedades eh'pticas puede acudir a Flury (1997), que es una excelente introduccion, 
y a Muirhead (1982). Otras buenas referencias sobre las distribuciones aquf expuestas son 
Anderson (1984), Seber (1984) y Johnson y Kot.z (1970). Patel y Read (1982) se concentran 
en la distribution normal. 

Las distribuciones mezcladas han ido teniendo un papel cada vez mayor en Estadi'stica, 
tanto desde el punto de vista clasico como Bayesiano. Un referencia basica es Titterington 
at al (1987). Muchos de los textos de cluster, que comentaremos en el capftulo 14, incluyen 
el estudio de estas distribuciones. 
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Figura 9.7: Mezcla al 50% de dos distribuciones normales con la misma media y distinta 
varianza 


Figura 9.8: Mezcla de dos normales bivariantes en la proportion 50% con medias (0,0) y 
(3,3) y distintas matrices de covarianzas. 
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Ejercicios 

Ejercicio 9.1 Dada la funcion de densidad conjunta f(x,y ) = 6x definida en 0 < x < 1, 

0 < y < 1 — x, comprobar que las densidades marginales de ambas variables son f(x) = 
6x(l - x), 0 < x < 1 y f(y ) = 3(1 - yf , 0 < y < 1. 

Ejercicio 9.2 Comprobar que las densidades condicionadas en el ejemplo anterior son f(y\x ) = 
0 <y <l-x y f(x\y ) = 0 < x < 1 - y. 

Ejercicio 9.3 Utilizar la formula de transform, aciones lineales de variables vectoriales para 
demostrar que si definimos la variable normal estandar como la que tiene funcion de densi- 
dad /( z) = ^vr) - ^ 2 exp(— z'z/2) y hacemos la transform acion x = m + Az se obtiene la 
expresion de la normal general. 

Ejercicio 9.4 Obtener las distribuciones condicionadas en la normal bivariante de media 
cero y matriz de covarianzas 

Ejercicio 9.5 Demostrar en el ejercicio anterior que si p > 1 tanto la matriz de covarianzas 
como la de correlacidn no son definidas positivas 

Ejercicio 9.6 Comprobar las formulas (9.19) y (9.20) para las esperanzas y varianzas glob- 
ales de las variables del ejercicio f.3 

Ejercicio 9.7 Sea ( x ) un vector bidimensional de variables aleatorias normales incorreladas. 
Escribir la funcion de densidad conjunta del vector de variables a = X^ 7 =i x h ^Y^LiVh 

E m 
i=i 

Ejercicio 9.8 Calcular en el ejercicio anterior la densidad condicionada f(c\ab). 

Ejercicio 9.9 Demostrar que la distancia de Mahalanobis entre la variable multinomial y 
su media, (y— np) / Var(y) _1 (y— np) es la distancia ji-cuadradoY) {'Hi — npi) 2 /npi. 

Ejercicio 9.10 En la normal bivariante , demostrar que existe una matriz triangular (de- 

scomposicion de Cholesky) L = \ 11 .*“* tal que LL' = V. Encontrar los parametros 

hi h2 J 

hi,hij 22 como funcion de las varianzas y covarianzas de las variables. Interpretar el resul- 
tado como parametros de las distribuciones marginales y condicionadas de las variables. 

Ejercicio 9.11 Aplicar la descomposicion de Cholesky del ejercicio anterior a la matriz de 
covarianzas 

Ejercicio 9.12 Generar muestras de una distribucion normal bivariante por el metodo sigu- 
iente: (1) generar un valor al azar de la distribucion marginal de la primera variable; 

(2) generar un valor al azar de la distribucion univariante de la segunda variable dada la 
primera. Aplicarlo para generar valores al azar de una variable aleatoria con vector de medias 
pi = (0,5)' desviaciones tipicas (2,3) y correlacidn 0,5. 





9.11. LECTURAS COMPLEMENT ARIAS 


293 


Ejercicio 9.13 Demostrar que el metodo anterior es equivalente a generar dos variables 
aleatorias independientes de media cero y desviacion tipica unidad , z = ( Z\,Z 2 )', y obtener 
los valores al azar de las variables mediante la transformacion x = /x + Lz , donde L es al 
matriz triangular de la descomposicion de Cholesky. 


Ejercicio 9.14 Demostrar que si particionamos el vector de variables y la matriz de covari- 
n 1 , y llamamos L n , L 12 , L 22 a las matrices correspondientes a la 


anzas como V = 


V 21 V 


22 


descomposicion de Cholesky de esta matriz se verifica que L 2 xl = V n , L I2 = V X ^ 2 V\ 2 , L 2 2 = 
V 22 — V 2 iV n 1 Vi 2 e interpretar estos resultados de acuerdo con la seccion 5.3.1 


Ejercicio 9.15 Demostrar que si x 1; ...,x ft son vectores con m.edias /Xj y matrices de covar- 
ianzas V* la variable y = ^ 1=1 cx * ti ene media Y^i=i C P% V covarianza Y^!i=i c 2 Vj- 

Ejercicio 9.16 Cuando aumenta la dimension del vector de datos la maldicion de la di- 
mension se manifiesta en que cada vez hay menos densidad en una region del espacio. Para 
ilustrar este problema, considere la normal estandar y calcule con tablas de la y 2 la proba- 
bilidad de encontrar un valor en la esfera unidad definida por la relacion x/x < 1, cuando la 
dimension de x, es p = 2, 4, 8, 16. $Que pasara al aumentar pi 

Ejercicio 9.17 Considere una variable normal N p (0,I), donde p = 10. Tomemos un valor 
al azar, xq y construyamos la direccion que une ese punto con el cent.ro de la distribucion. 
aCual es el valor esperado de la distancia entre ese punto y el cent.ro de la distribucion?. 
Supongamos que ahora t.om.amos una muestra de 100 valores de la variable aleat.oria y los 
proyectamos sobre la direccion anterior. $Cual sera la distribucion que observamos? $Cual 
sera la distancia esperada entre el cent.ro de esos datos y el punto x 0 ? 


Ejercicio 9.18 La funcion generat-riz de moment, os de una variable aleatoria multivariante 
viene dada por ip{t) = E(e tx ), donde t es un vector de parametros. Comprobar que para 
una variable norm.al multivariante esta funcion es </?(t) = exp (t' pi + t'Vt). 

APENDICE 9.1 La distribucion Wishart invert ida 

Si W es Wp(m, E), la distribucion de U = W -1 se denomina distribucion Wishart 
invertida, escribiremos U ~ IW p (rn, E). Su funcion de densidad es 

/( U) = C'|E|- m/2 |U|- (m+p+ i )/2 exp(-l/2 frE^lT 1 ) 


y se verifica que 

y-l 

E[ U] = -■ 

m — p — 1 

La distribucion Wishart invertida es utilizada por muchos autores para la estimacion 
bayesiana de matrices de covarianzas. Como es equivalente decir que si U es Wishart inver- 
tida, U ~ IW p (m, E) y que IV 1 = W sigue una distribucion Wishart, IV 1 ~ W p {m, E), 
en este libro para simplihcar, hemos optado por no utilizarla y se incluye aquf unicamente 
como referenda para el lector que consult-e otra bibliografi'a. 
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Capftulo 10 


INFERENCIA CON DATOS 
MULTIVARIANTES 

10.1 INTRODUCTION 

En este capftulo vamos a presentar una introduction a la inferencia en modelos multivari- 
antes. Suponemos al lector familiarizado con los conceptos basicos de inferencia al nivel de 
Pena (2001). El objetivo de este capftulo es repasar los resultados de estimation y contrastes 
principals que seran necesarios en los temas posteriores. El lector puede encontrar en An- 
derson (1984), Mardia et al. (1979) o Seber (1983) presentaciones mas completas de lo aquf 
expuesto. 

Se estudia primero la estimation de los parametros en modelos normales multivariantes 
por maxima verosimilitud. En segundo lugar se presenta el metodo de la razon de verosimili- 
tudes, como procedimiento general para obtener contrastes con buenas propiedades en mues- 
tras grandes. Existen otros procedimientos para construir contrastes multivariantes que no 
revisaremos aquf, y que el lector puede encontrar en Anderson (1984). A continuation, se 
presenta un contraste sobre el valor del vector de medias en una poblacion normal multi- 
variant-e. Este contraste se generaliza para comprobar la igualdad de los vectores de medias 
de varias poblaciones normales multivariantes con la misma matriz de covarianzas, que es la 
herramienta principal del analisis de la varianza multivariante. Un caso particular de este 
contraste es el test de valores ati'picos, que puede formularse como una prueba de que una 
observation proviene de una distribution con media distinta a la del resto de los datos. Final- 
mente, se presentan los contrastes de normalidad conjunta de los datos y transformaciones 
posibles para llevarlos a la normalidad. 


10.2 Fundamentos de la Estimacion Maximo Verosim- 
il 

El metodo de maxima verosimilitud, debido a Fisher, escoge como estimadores de los paramet- 
ros aquellos valores que hacen maxima la probabilidad de que el modelo a estimar genere 
la muestra observada. Para precisar esta idea, supongamos que se dispone de una muestra 
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aleatoria simple de n element-os de una variable aleat-oria p— dimensional, x, con funcion de 
densidad /(x | 0), donde 0 = (9 1 , 9 r )' es un vector de parametros que supondremos t-iene 
dimension r < pri. Llamando X = (x l5 ...,x n ), a los dat-os muestrales, la funcion de densidad 
conjunta de la muestra sera, por la independencia de las observaciones: 

n 

/(x i «>=n /(*.i«). 

i= 1 

Cuando el parametro 0 es conocido, esta funcion determina la probabilidad de aparicion de 
cada muestra. En el problema de estimacion se dispone de la muestra, pero 0 es desconocido. 
Considerando en la expresion de la densidad conjunta a G como una variable y particular- 
izando esta funcion para los datos observados, se obtiene una funcion que llamaremos funcion 
de verosimilitud, £{0 |X), o £(0): 


£{0 |X) = £(0) = J|/(xj | 9) X fijo: 0 variable (10.1) 

i= 1 

El estimador de maxima verosimilitud, o estimador MV, es el valor de 6 que hace maxima 
la probabilidad de aparicion de los valores muestrales efectivament-e observados y se obtiene 
calculando el valor maximo de la funcion £{0). Suponiendo que esta funcion es diferenciable 
y que su maximo no ocurre en un extremo de su dominio de definicion, el maximo se obtendra 
resolviendo el sist-ema de ecuaciones: 


d£{0) 

39 1 

31(G) 

d9 r 


0 

0 


El vector 6 que sat-isface este sist-ema de ecuaciones correspondera a un maximo si la 
matriz hessiana de segundas derivadas H, evaluada en 6, es definida negat-iva: 


H(d) 


( d 2 £(0) \ 

\d9 i d9 j J 0=d 


definida negat-iva. 


En ese caso 6 es el estimador de maxima verosimilitud o estimador MV de 6. En la prac- 
tica suele ser mas cbmodo obtener el maximo del logaritmo de la funcion de verosimilitud: 


L{0) = In £(0) (10.2) 

que llamaremos funcion soporte. Como el logaritmo es una transformacion monot-ona, ambas 
funciones t-ienen el mismo maximo, pero trabajar con el soport-e t-iene dos ventajas principales. 
En primer lugar pasamos del product-o de densidades (10.1) a la suma de sus logaritmos y la 
expresion resultante suele ser mas simple que la verosimilitud, con lo que resulta mas cbmodo 
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obtener el maximo. En segundo lugar, al tomar logaritmos las constantes multiplicativas de 
la funcion de densidad, que son irrelevante para el maximo, se hacen adit-ivas y desaparecen 
al derivar, con lo que la derivada del soporte t-iene siempre la misma expresion y no depende 
de constantes arbitrarias. En tercer lugar, el doble de la funcion soporte cambiada de sig- 
no proporciona un metodo general para juzgar el ajuste de un modelo a los datos que se 
denomina desviacion : 


D(0) = -2 L (0) 

y la desviacion D{0) mide la discrepancia entre el modelo y los datos. Cuanto mayor sea el 
soporte, L (0) , mayor es la concordancia entre el valor del parametro y los datos y menor la 
desviacion. La desviacion aparecera de manera natural en el contraste de hipotesis y es una 
medida global de ajuste de un modelo a los datos. 

Para distribuciones cuyo rango de valores posibles es conocido a priori y no depende de 
ningiin parametro, puede demostrarse (vease por ejemplo Casella y Berger, 1990) que, en 
condiciones muy generales respecto al modelo de distribucion de probabilidad, el metodo de 
maxima verosimilitud (MV) proporciona estimadores que son: 

1. Asintoticamente centrados. 

2. Con distribucion asintoticamente normal. 

3. Asintoticamente de varianza minima (eficientes). 

4. Si existe un estadist-ico suficiente para el parametro, el estimador MV es suficiente. 

5. Invariantes en el sentido siguiente: si 6 es el estimador MV de 0, y g ( 0 ) es una funcion 
cualquiera del vector de parametros, entonces g{6) es el estimador MV de g(0). 

10.3 Estimacion de los parametros de variables nor- 
males p-dimensionales. 

Sea xi,...,x n una muestra aleatoria simple donde x, ~ V p (/x, V). Vamos a obtener los 
estimadores MV de los parametros desconocidos /x y V. El primer paso es construir la 
funcion de densidad conjunta de las observaciones, que es, utilizando la expresion de la 
normal multivariante estudiada en el capitulo 8: 

n 

/(X | /x,V) = f]|Vr 1 / 2 ( 27 r)"^ 2 exp{-(l/ 2 )(x-/x) / V- 1 (x-/x)} 

i = 1 

y la funcion soporte sera, despreciando las constantes: 

1 n 

L(/x, V|X) = log |V| - - J^(x - /x) / V _1 (x - /x). 

i— 1 
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Observemos que la funcion soporte asf escrita es siempre negat-iva, ya que tant-o el det-er- 
minante como la forma cuadrat-ica son positivos por ser definida positiva la matriz V. Esta 
funcion nos indica el apoyo o soporte que reciben los posibles valores de los parametros dados 
los valores muestrales observados. Cuanto mayor sea esta funcion (menos negativa) para un- 
os valores de los parametros, mayor sera la concordancia entre estos parametros y los datos. 
Vamos a expresar esta funcion de una forma mas conveniente. Llamando x = Y^i = 1 x */ n 
vector de medias muestral y escribiendo (x, - //) = (x, — x + x — /./,) y desarrollando la forma 
cuadrat-ica 

n n 

- M)'V-'(x - m) = £> - xJ'V-'fx - x) + n(x - /i)'V- 1 (S - M ) 

i= 1 i=l 

ya que J]” =1 (x — x) = 0. Concent randonos en el primer termino de esta descomposicion, 
como un escalar es igual a su traza: 

( n \ n 

— x) / V _1 (x — x) J = tr [(x — x) / V _1 (x — x)] = 

i = 1 ) i = 1 

tr [V~ 1 (x — x)(x — x)'] 

i = 1 

y llamando: 

1 n 

S = - ^(x,: - x)(xj - x)', (10.3) 

n ^ ' 

1=1 

a la matriz de covarianzas muestral, y sustituyendo en la funcion soporte: 

77 77 77 

L(fi, V|x) = - - iog |V| - — frV -1 S - - (x - - fi) (10.4) 

Esta es la expresion que utilizaremos para el soporte de los parametros en muestras de una 
normal multivariante. Observemos que esta funcion solo depende de la muestra a traves de 
los valores xyS, que seran, por tant-o, est-imadores suficientes de /i y V. Todas la muestras 
que proporcionen los mismos valores dexy S daran lugar a las mismas inferencias respecto 
a los parametros. 

Para obt-ener el estimador del vector de medias en la poblacion, ut-ilizamos que, por ser 
V^ 1 definida positiva, (x — /x) / V~ 1 (x — /x) > 0 . Como este termino aparece con signo 
menos, el valor de fi que maximiza la funcion soporte es aquel que hace este termino lo 
menor posible, y se hara cero t-omando: 

fi = x (10.5) 

por lo que concluimos que x es el estimador maximo verosi'mil de /x. Sustituyendo este 
estimador en la funcion soporte este termino desaparece. Para obt-ener el maximo de la 
funcion respecto a V, sumaremos la constante | log |S| , y escribiremos el soporte como: 

77 77 

L(V|X) = -log|V~ 1 S|--frV- 1 S 



tr ( V 1 ^(x-x)(x-x)' ] , 


1=1 


( 10 . 6 ) 
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Esta expresion es util porque el valor de la verosimilitud escrita de esta forma no depende de 
las unidades de medida de las variables. Tambien es facil comprobar (vease ejercicio 10.1) 
que el valor de la verosimilitud es invariante ante transformaciones lineales no singulares de 
las variables. Llamemos A* a los valores propios de la matriz V 1 S. entonces: 

L(V|X) = log A - - \ X A < = \ E< l0 S A < “ A -)' 

Esta expresion indica que la verosimilitud es una suma de funciones del tipo log a; — x. 
Derivando respecto a x es inmediato que una funcion de este tipo tiene un maximo para 
x — 1. Por tanto, L(V|X) sera maxima si todos los valores propios de V 1 S son iguales a la 
unidad, lo que implica que V 1 S = I. Esto se consigue tomando como estimador de maxima 
verosimilitud de V : 

V = S (10.7) 

Los estimadores MV de /x y V son pues x y S. Se demuestra, como en el caso uni- 
variante, que x ~Ay(/x. 1/nV). Ademas nS se distribuye como la distribucion de Wishart, 
W p (n — 1, V). El estimador S es sesgado, pero -^-S es un estimador centrado de V. Es- 
tos estimadores tienen las buenas propiedades asintoticas de los estimadores de maxima 
verosimilitud: consistencia, eficiencia y normalidad asintotica. En el ejercicio 10.2 se presen- 
ta una deduccion alternativa, mas clasica, de estos estimadores derivando la funcion soporte. 

10.4 El metodo de la razon de verosimilitudes 

En esta seccion repasamos la metodologfa general para construir cont-rastes utilizando la 
razon de verosimilit-ides y la aplicaremos al caso de poblaciones normales. Con frecuencia 
se desea comprobar si una muestra dada puede provenir de una distribucion con ciert-os 
parametros conocidos. Por ejemplo, en el control de calidad de ciert-os procesos se toman 
muestras de element-os, se mide una variable multivariante y se desea contrastar si el proceso 
esta en estado de control, lo que supone que las muestras provienen de una poblacion normal 
con ciert-os valores de los parametros. En ot-ros casos, interesa comprobar si varias muestras 
multivariantes provienen o no de la misma poblacion. Por ejemplo, queremos comprobar si 
ciert-os mercados son igualment-e rentables o si varios medicament-os producen efectos simi- 
lares. Finalment-e, si hemos basado nuestra inferencia en la hipotesis de normalidad conviene 
realizar un contrast-e para ver si esta hipotesis no es rechazada por los dat-os observados. 

Para realizar cont-rastes de parametros vectoriales podemos aplicar la t-eon'a del contrast-e 
de verosimilitudes. Est-a t-eon'a proporciona pruebas estadi'st-icas que, como veremos, tienen 
ciert-as propiedades optimas para tamanos muestrales grandes. Dado un parametro vectorial, 
0 , p- dimensional, que t-oma valores en Q (donde O es un subconjunto de tC), suponemos 
que se desea contrastar la hipotesis: 

Hq : 0 G Do, 

que establece que 6 esta contenido en una region D 0 del espacio parametrico, frente a una 
hipotesis alternativa: 


H x : 0 G D — D 0 , 
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que supone que 6 no esta restringida a la region O 0 - Para comparar est-as hipotesis, analizare- 
mos su capacidad de prever los datos observados, y, para ello, compararemos las probabili- 
dades de obtenerlos bajo ambas hipotesis. Calcular est-as probabilidades requiere el valor del 
vector de parametros, que es desconocido. El metodo de razon de verosimilitudes resuelve 
este problema t-omando el valor que hace mas probable obt-ener la muestra observada y que 
es compatible con la hipotesis. En concrete: 

1. La maxima probabilidad de obt-ener la muestra observada bajo Ho se obtiene como 
sigue. Si 1 h) determina un valor unico para los parametros, 0 = 0 0 , entonces se calcula 
la probabilidad de los datos supuesto 9 0 - Si 1 h, permite muchos valores, elegiremos en- 
tre ellos el valor del parametro que haga maxima la probabilidad de obtener la muestra. 
Como la probabilidad de la muestra observada es proportional a la distribution con- 
junta de las observaciones, sustit-uyendo en esta funcidn los datos disponibles result-a 
la funcion de verosimilitud. Calculando el maximo de esta funcidn en Oq, se obtiene el 
maximo valor de la verosimilitud compatible con II u. que represent aremos por f (H 0 ) . 

2. La maxima probabilidad de obtener la muestra observada bajo Hi se calcula obtenien- 
do el maximo absoluto de la funcidn sobre todo el espacio parametrico. Estrictament-e 
deben'a calcularse en el conjunto 12 — O 0 , pero es mas simple hacerlo sobre todo el 
espacio, ya que en general se obtiene el mismo result-ado. La razon es que, habitual- 
ment-e, H 0 impone restricciones en el espacio parametrico mientras que Hi supone que 
estas restricciones no existen. Particularizando la funcidn de verosimilitud en su max- 
imo, que corresponde al estimador MV de los parametros, se obtiene una cant-idad que 
represent aremos como f (Hi) . 

A continuation compararemos f (H 0 ) y f (II i ). Para eliminar las constant-es y hacer la 
comparacion invariante ante cambios de escala de las variables, construimos su cociente, que 
llamaremos razon de verosimilitudes (RV) : 


( 10 . 8 ) 


Por construccion RV < 1 y rechazaremos II a cuando RV sea suficient-ement-e pequeno. 
La region de rechazo de H 0 vendra, en consecuencia, definida por: 

RV < a, 

donde a se determinate imponiendo que el nivel de signification del test sea a. Para calcular 
el valor a es necesario conocer la distribution de RV cuando H 0 es cierta, lo que suele ser 
difi'cil en la practica. Sin embargo, cuando el tamano muest-ral es grande, el doble de la 
diferencia de soport-es ent-re la alt-ernat-iva y la nula, cuando H 0 es cierta, definida por: 

A = -2 In RV = 2 (L(Hi) - L(H 0 )) , 

donde L(Hj) = log / (//,), i — 0, 1. se distribuye asint-bt-icament-e como una y 2 con un numero 
de grados de libert-ad igual a la diferencia de dimension entre los espacios 12, y O 0 . Intuiti- 
vamente rechazamos II a cuando el soport-e de los dat-os para II \ es significativament-e mayor 


RV = 


/Cgo 

f(Hi 
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que para H 0 . La diferencia se juzga, para muestras grandes, con la distribution y 2 . Utilizan- 
do la definition de la desviacion, este contraste puede interpretarse como la diferencia entre 
las desviaciones para H 0 y para Hi : 


X = D{H 0 ) - D(Hi) 

Es frecuente que la dimension de Ll sea p y la. dimension de Oo sea p—r, siendo r el numero 
de restricciones lineales sobre el vector de parametros. Entonces, el numero de grados de 
libertad de la diferencia de soportes, A, es: 

g = gl( A) = dirn(O) — dim(O 0 ) = p — (p — r) = r 

igual al numero de restricciones lineales impuestas por H 0 . 

10.5 Contraste sobre la media de una poblacion normal 

Consideremos una muestra (xi,...,x n ) de una poblacion N r> (gi. V). Se desea realizar el 
contraste de la hipotesis: 


H 0 : /x = /x 0 , V =cualquiera 


frente a la alternativa: 


Hi : pi /x 0 , V =cualquiera. 

Para construir un contraste de razon de verosimilitudes, calcularemos el maximo de la 
funcion de verosimilitud bajo H 0 y bajo II \ . La funcion soporte es: 

1 n 

L(», V|X) = ~ log |V| - - - m) / V _1 (x - n). 

1=1 

Se requiere obtener los est-imadores MV de /r y V bajo H 0 y bajo Hi. Por la section 10.2 
sabemos que, bajo Hi, estos estimadores son xy S, y sust-ituyendo en (10.4) t-enemos que el 
soporte para Hi es: 

L(H i) = ~log|S|-^ 

Bajo Hq el estimador de /x es directament-e /x 0 , y operando en la forma cuadrat-ica como 
vimos en la section 10.2.2 (tomando trazas y utilizando las propiedades lineales de la traza) 
podemos escribir esta funcion como: 

77 77 

L(V|X) = -- log | V| - -trV- 1 S 0 (10.9) 


donde 
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Si sumamos en la expresion (10.9) la constante | log |S 0 obtenemos una expresion analoga 
a (10.6), con lo que concluimos que S 0 es el estimador MV de V bajo H 0 . Sustituyendo V 
por S 0 en (10.9) el soporte para H 0 sera 

T(U\ U \ 1C I U P 

l \Hq) = —— log | S 0 1 - — 

y la differentia de soportes sera 

A = 2{L{H 1 ) - L(H 0 )) = nlog|^ (10.11) 

y rechazaremos H 0 cuando el soporte para Hi sea significativament.e mayor que para H 0 . 
Esta condition equivale a que la varianza generalizada bajo H 0 . (|S 0 |) sea significativament.e 
mayor que bajo II \ . La distribucion de A es una y 2 , con grados de libertad igual a la differentia 
de las dimensiones del espacio en que se mueven los parametros bajo ambas hipotesis. La 
dimension del espacio parametrico bajo H 0 es p + p(p — l)/2 = p(p + l)/2, el niimero de 
terminos distintos en V, y la dimension del espacio parametro bajo II \ es p +p(p I 1) /2. La 
diferencia es p que seran los grados de libertad del estadi'st.ico y 2 . 

En este caso, podemos obt.ener la distribution exact.a del ratio de verosimilitudes, no 
siendo necesaria la distribution asintotica. Se demuestra en el apendice 10.2 que: 

( 10 . 12 ) 

donde el estadi'st.ico 


= 1 + 


n 


T 2 = (n - l)(x - /x 0 )'S 2 (x - /x 0 ), 

sigue la distribution T 2 de Hotelling con p y n — 1 grados de libertad. Ut.ilizando la relation 
ent.re el estadi'st.ico T 2 y la distribution F. podemos calcular los percentiles de T 2 . Como 
la diferencia de soportes es una funcion monotona de T 2 , podemos utilizar directamente 
este estadi'st.ico en lugar de la razon de verosimilitudes, y rechazaremos H 0 cuando T 2 sea 
suficientement.e grande. Observemos que de (10.11) y (10.12) podemos escribir 

T 2 

A = n log(l H -) 

n — 1 

que es consistente con la distribution asintotica, ya que, para n grande, log(l +a/n ) ~ a/n, 
y entonces A ~ T 2 , que sabemos tiene una distribucion asintotica y 2 . 

Ejemplo 10.1 Un proceso industrial fabrica elementos cuyas caracteristicas de calidad se 
miden por un vector de tres variables, x. Cuando el proceso esta en estado de control, los 
valores medios de las variables deben ser (12,4,2). Para comprobar si el proceso funciona 
adecuadamente, se toma una muestra de 20 elementos y se miden las tres caracteristicas. 
La media muestral es 


x= (11.5, 4.3, 1.2) 
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y la matriz de covarianzas entre estas tres variables es 

"10 4 -5 ' 

S = 4 12 -3 

-5 -3 4 

(Los valores numericos se han simplificado para facilitar los calculos) Observemos que si 
miramos cada variable aisladamente como 

t — (x — p)\/n/'s 

es una t de Student con n — 1 grados de libertad, obtendnamos unos valores de las t para 
cada variable de p = (11.5-12)^20/^20 x 10/19 = -.68; t 2 = (4.3-4)y / 20/v / 20 x 12/19 
= .88; y t 3 = (1.2 — 2)y / 20/v / 20 x 4/19 = .85. Aparentemente, mirando cada variable 
separadamente no hay diferencias significativas entre las medias muestrales y las del proceso 
bajo control y concluinamos que no hay evidencia de que el proceso este fuera de control. Si 
calculam.os ahora el estadistico de Hotelling 

T 2 = 19(x — /z 0 )'S _1 (x — fj, 0 ) = 14.52 

Para juzgar el tamano de esta discrepancia lo llevamos a la distribucion F 

F 3 ,i7 = ((20- 3)/3)(T 2 /19) =4.33 

y como el valor F 3)17 (.001) = 3.4, rechazamos sin ninguna duda que el proceso esta en 
estado de control. 

Para entender la razones de esta discrepancia entre el contraste multivariante y los uni- 
variantes, observemos que el contraste multivariante tiene en cuenta las correlaciones entre 
las discrepancias individuates. La matriz de correlaciones de los datos muestrales obtenida 
a partir de la matriz de covarianzas es 

1 .37 -0.79 ' 

R = .37 1 -0.43 

-0.79 -0.43 1 

la correlacion entre la primera variable y la tercera es negativa. Esto quiere decir que si 
observamos un valor por debajo de la media en la primera variable, esperamos que aparezca 
un valor por encima de la m.edia en la tercera. En la muestra ocurre lo contrario, y esto 
contribuye a sugerir un desplazamiento de la media del proceso. 

10.6 Contrast es sobre la matriz de varianzas de una 
poblacion normal 

El contraste de la razon de verosimilitudes se aplica para hacer contrastes de matrices de 
varianzas de forma similar a la estudiada para vectores de medias en la section anterior. 
Vamos a ver cuatro contrastes sobre la matriz de covarianzas de variables normales. En el 
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primer caso la hipotesis nula es que esta matriz toma un valor fijo dado. Eii el segundo, que 
la matriz es diagonal y las variables estan incorreladas. En el tercero las variables ademas 
tienen la misma varianza, es el contraste de esfericidad donde suponemos que la matriz 
de covarianzas es cr 2 l. En el cuarto caso suponemos una esfericidad partial: la matriz de 
covarianzas puede descomponerse como una matriz de rango m < p mas a 2 1 . Si m — 0 est-e 
contraste se reduce al de esfericidad. 

10.6.1 Contraste de un valor particular 

Supongamos que se desea realizar el contraste de la hipotesis: 

//(i : V = V 0 , pi cualquiera 


frente a la alternativa: 


Hi : fi, y V =cualquiera. 

Para construir un contraste de razon de verosimilit-udes, calcularemos el maximo de la 
funcion de soporte bajo H 0 y bajo H\. Ut-ilizando la expresion del soporte: 

77 77 77 

L(ti,V |x) = — — log | V | - —tr V _1 S - -(x-/i)'V _1 (x-/i) 

Bajo H 0 , el valor de V queda especificado, V 0 , y g se estimara mediante x, con lo que : 

L(H 0 ) = — — log | V 0 1 — —tr V^S 

mientras que bajo Hi, los est.imadores son x y S, con lo que, como vimos en la section 
anterior: 


L(Hi) 


n , , C | rip 

-77 lo S I s I - 


y la diferencia de soportes sera 

A = 2{L{H l ) - L(H 0 )) = n log ^ + ntrV^S-np (10.13) 

iJ 

Vemos que el contraste consiste en comparar V 0 , el valor teorico y S, el estimado con la 
metrica del determinante y con la de la traza. La distribution del estadi'st.ico A es una y 2 , 
con grados de libert-ad igual a la diferencia de las dimensiones del espacio en que se mueven 
los parametros bajo ambas hipotesis que es pip + l)/2, el numero de terminos distintos en 

V. 

En particular este test sirve para contrastar si V 0 = I. Entonces el estadi'st-ico (10.13) se 
reduce a 
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10.6.2 Contraste de independencia 

Otro contraste de interes es el de independencia, donde suponemos que la matriz V 0 es 
diagonal. Es decir: 


H 0 : V =diagonal /x cualquiera 


frente a la alternativa: 


Hi : fi, y V =cualquiera. 

Ent-onces la estimacion maximo verosfmil de V 0 es V 0 =diag(S), donde diag(S) es una matriz 
diagonal con terminos s„ iguales a los de S, y el estadfstico (10.13) se reduce a 

A = n log ^ “ + ntrVa 1 S — np 

iJ 

y como trVo X S =brV 0 1//2 SV 0 1//2 = trH =p, el contraste se reduce a: 

A = — nlog|R| (10.14) 

que suele escribirse en terminos de los valores propios de R, llamando A ?: a estos valores 
propios una forma equivalents del contraste es 

p 

A = -n ^2 lo S 

i = 1 

y su distribucion asintotica sera una y 2 , con grados de libert-ad igual p(p + l)/2 — p = 
Pip- l)/2- 

10.6.3 Contraste de esfericidad 

Un caso particular importante del contraste anterior es suponer que todas las variables tienen 
la misma varianza y estan incorreladas. En este caso no ganamos nada por analizarlas 
conjuntamente, ya que no hay informacion comiin. Este contraste equivale a suponer que 
la matriz V 0 es escalar, es decir V =o- 2 I, y se denomina de esfericidad, ya que entonces la 
distribucion de las variables tiene curvas de nivel que son esferas: hay una total simetrfa en 
todas las direcciones en el espacio. El contraste es 

//o : V =rr“I. /x cualquiera 


frente a: 


H\ : /x, y V =cualquiera 

Sust-ituyendo V 0 =(J 2 I en (10.13), la funcion soporte bajo H 0 es 

L(^ 0 ) = -f logu 2 -^rS 
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y derivando respecto a a 2 es inmediato comprobar que el estimador MV es a 2 = trS/p, .el 
promedio de las varianzas. La funcion soporte L(H±) es la misma que en el contraste anterior 
y la diferencia de soportes es 


(j- ' 

A = n log — - + ntrS /a —np (10.15) 

y sustituyendo a 2 = trS/p el contraste se reduce a: 

A = np log a 2 — n log | S | 

y se distribuira asintoticamente como una y 2 con p(p+ l)/2 — 1 = (p + 2)(p — l)/2 grados 
de libertad. 

10.6.4 (*) Contraste de esfericidad parcial 

El cuarto contraste que estudiaremos se denomina de esfericidad parcial porque supone que 
la matriz de covarianzas tiene dependences en un espacio de dimension m. pero en el espacio 
complementary de dimension p — m se da la situacion de esfericidad. Esto supone que toda 
la estructura de dependencias entre las variables puede explicarse en funcion de m variables, 
como veremos al estudiar el modelo factorial. Observemos que no tiene sentido contrastar 
que una matriz cuadrada de orden p tiene rango m < p, porque, en este caso, la matriz debe 
tener exactamente p — m valores propios nulos. Si es asf, lo comprobaremos al calcular sus 
valores propios, ya que si se da esta condicion en la poblacion tiene que darse tambien en 
t-odas las muestras. Sin embargo, si tiene sentido contrastar que la matriz tiene m valores 
propios relativamente grandes, que coresponden a m direcciones informativas, y p — m valores 
propios pequenos e iguales, que corresponden a las no informativas. Esta es la esfericidad 
parcial. El contraste sera: 


H 0 : V = B+ct 2 I, /x cualquiera y rango(B) = m 


frente a: 


H i : /x, y V =cualquiera 


Puede demostrarse utilizando los mismos principios (vease Anderson, f 963) que, llamando 
A i a los valores propios de S, el contraste es: 


p 

A = — n log A i + n(p 

i=m-\- 1 


m) log 


y^p 


Aj 


p — m 


(10.16) 


y sigue asintoticamente una distribution y 2 con (p — m + 2 ) (p — m — l)/2 grados de libertad. 
Observemos que si las variables estan estandarizadas y m = 0, este contraste se reduce a 
(10.15). Tambien si las variables estan estandarizadas Y^=i^j = Pi segundo termino 
se anula y este contraste se reduce (10.14). Concluimos que cuando m — 0 este contraste 
coincide con el general de esfericidad presentado en la section anterior. 
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10.6.5 Ajustes en la distribucion 

La aproximacion de la distribucion del estadfstico A a la x 2 cuando el tamano muestral no 
es muy grande puede mejorarse introduciendo factores de correction. Box (1949) y Bartlett 
(1954) han demost-rado que las aproximaciones mejoran si sutituimos en los estadfst.icos 
anteriores n por n c donde n c es menor que n y dependen de p y del contraste. Por ejemplo, 
Box (1949) demostro que el contraste de independencia mejora si sutituimos n por n c = 
n— (2p + ll)/2. Estas correciones pueden ser importantes si el tamano muestral es pequeno, 
p es grande y el estadfstico obtenido esta cerca del valor crftico, pero no van a ser importantes 
si p/n es pequeno y el estadfstico result ante es claramente conluyent.e en cualquiera de las 
direcciones. El lector interesado puede acudir a Muirhead (1982). 


Ejemplo 10.2 Contrastar si podem.os admitir que la matriz de covarianzas de las medidas 
de calidad del ejercicio 10.1 es de la form.a a 2 1. Si no es asi contrastar si las variables aunque 
tengan distinta varianza son independient.es. 

La estimacion de a 2 bajo la nula es trS/p = (10 + 12 + 4)/3 = 8,67. Por otro lado se 
comprueba que |S| = 146. Ent-onces 


A = 60 log 8, 67 - 20 log 146 = 29.92 


que debe com.pararse con una y 2 con (3 + 2)(3 — l)/2 = 5 grados de libertad, y el valor 
obtenido es claramente significativo, por lo que rechazamos que las variables tengan la misma 
varianza y esten incorreladas. 

Para realizar el contraste de independencia transformemos las variables dividiendo cada 
una de ellas por su varianza. Es decir, pasamos a nuevas variables z\ = Xi/y/lO, z 2 = 
x 2 /\/Y2,Z3 = xs/v 2 !, que tendran matriz de covarianzas, llamando D a la matriz diagonal 
con elementos (l/\/l0, l/\/l2, l/y/A), tendremos: 


V z = D14D' 


1 0.3651 -0.7906 

0.3651 1 -0.4330 

-0.7906 -0.4330 1 


R 


X 


y el contraste ahora es 

A = -20 log 0,304 = 23.8 

que debe com.pararse ahora con y 2 con 3 grados de libertad, con lo que se rechaza sin 
duda la hipotesis de independencia. 

10.7 Contraste de igualdad de varias medias: el Anali- 
sis de la Varianza Multivariante 

Supongamos que hemos observado una muestra de tamano n de una variable p dimensional 
que puede estratificarse en G clases o grupos, de manera que exist-en m observations del 
grupo 1 no del grupo G. Un problema important^ es contrastar que las medias de las 
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G clases o grupos son iguales. Vamos a resolverlo aplicando el contraste de la razon de 
verosimilitudes. La hipotesis a contrastar es: 

H 0 - R i = R 2 = ••• = Rg = Ad 

donde, ademas, V es definida posit-iva, e identica en los grupos. La hipotesis alternativa es: 

H i : no todas las R i son iguales; 
con las mismas condiciones para V. 

La funcion de verosimilitud bajo Ho de una muestra normal homogenea se ha calculado 
en la seccidn 10.2 y sabemos que su maximo se alcanza para p = x y V = S. Sustituyendo 
estas est-imaciones en la funcion soporte tenemos que 

L(H 0 ) = ~ |log|S|-f. (10.17) 

Bajo Hi, los n vectores de observaciones se subdividen en n.\ del grupo 1 , tiq del grupo 
G. La funcion de verosimilitud bajo Hi sera: 

r . G n g 

f(Ru-,R P ,V\X) = |V| _?l/2 (27r) _rip/2 exp < -- Y Y^ h 9 ~ ~ R g ) 

l Z 9=1 h= 1 

donde x hg es el h vector de variables del grupo g, y R g su media. La maximizacibn de esta 
funcion en el espacio parametrico definido por // , se realiza por el procedimiento estudiado 
en 10.2. La estimacion de la media de cada grupo sera la media muestral, p, g = x 9 , y la 
estimacion de la matriz de covarianzas comun se obtiene utilizando que: 

G n g / G ri g 

^ Y^ h 9 ~ ^yV^Xfeg - Xg) = tr I - Xg)'V^ l (X fe g - Xg) 

9=1 h = 1 \9=1 h = 1 



G n g 

Y Y tr ( V_1 ( Xfe 9 - X 9 )(x hg - Xg)') = tr (V _1 W) 

9=1 h = 1 

donde 

G n g 

W=^^( X feg-Xg)(x ft g-Xg)' (10.18) 

9=1 h= 1 

es la matriz de suma de cuadrados dentro de los grupos. Sustituyendo en la funcion de 
verosimilitud y tomando logaritmos se obtiene 

77 77 

L(V|X) = - log IV’ 1 1 - -trV-'W/n 
2 2 
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y, segun los resultados de 10.2, la varianza comun a los grupos cuando estos tienen distinta 
media se estima por: 

V = S w = -W (10.19) 

n 

donde W esta dada por (10.18). Sustituyendo estas expresiones en la funcion soporte ten- 
dremos que 

L(H 1 ) = ~ log|Sj-^. (10.20) 

La diferencia de soportes sera: 

ISI 

A = nlog — — - (10.21) 

\^W | 

y rechazaremos H 0 cuando esta diferencia sera grande, es decir, cuando la variabilidad 
suponiendo H 0 cierta, medida por |S|, sea mucho mayor que la variabilidad cuando per- 
mitimos que las medias de los grupos sean distintas, medida por S,„ | . Su distribucion es, 
asintoticamente, una x g donde los grados de libertad, g, se obtienen como por la diferencia 
entre ambos espacio parametricos. H 0 determina una region O 0 donde hay que estimar los p 
componentes del vector de medias comun y la matriz de covarianzas, en total p + pip + l)/2 
parametros. Bajo la hipotesis Hi hay que estimar G vectores de medias mas la matriz de 
covarianzas lo que supone Gp + pip + l)/2 parametros. La diferencia es g : 

g = dirn(O) — dim(O 0 ) = p(G — 1) (10.22) 

que seran los grados de libertad de la distribucion asintot-ica. 

La aproximacion a la distribucion \ 2 g del cociente de verosimilitudes puede mejorarse para 
tamanos muestrales pequenos. Se demuestra que el estadfstico : 

A 0 = m log log t^t, (10.23) 

donde 


m = (n — 1) — (p + G)/ 2, 

sigue asintoticamente una distribucion \ 2 g ■ donde g viene dada por (10.22), y la aproximacion 
es mejor que tomando m = n en pequenas muest-ras. 

El analisis de la varianza multivariante 

Este contraste es la generalizacion multivariante del analisis de la varianza y puede deducirse 
alternativamente como sigue. Llamemos variabilidad total de los dat-os a: 

n 

T = 5^(xi -x)(xi -x)', 

i = 1 


(10.24) 
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que mide las desviaciones respecto a una media comun. Vamos a descomponer la matriz T 
como suma de dos matrices. La primera, W, es la matriz de las desviaciones respecto a las 
medias de cada grupo y viene dada por (10.18). La segunda medira la variabilidad explicada 
por las diferencias entre las medias y la llamaremos B. Esta descomposicion generaliza al 
caso vectorial la descomposicion clasica de analisis de la varianza. Para obtenerla sumaremos 
y restaremos las medias de grupo en la expresion de T, como: 

G n g 

X + x 9 - X 9 )(x 9h - X + x 9 - x s y 

9=1 h= 1 

y desarrollando se comprueba que el doble producto se anula y resulta: 


(10.25) 

donde T viene dado por (10.24), W por (10.18) y B, la matriz de variabilidad explicada o 
de sumas de cuadrados entre grupos, se calcula por: 

G 

B = XX (*9 -x)(x 9 -x)'. 

9=1 

La descomposicion (10.25) puede expresarse como 

Variabilidad Total (T) = Variabilidad Explicada (B) + Variabilidad Residual (W) 

que es la descomposicion habitual del analisis de la varianza. 

Para hacer un contraste de que las medias son iguales podemos comparar el tarnano de las 
matrices T y B. La medida de tarnano adecuada es el determinante, con lo que concluimos 
que el contraste debe basarse en el cociente |T|/|W|. La distribucion exacta de este cociente 
fue estudiada por Wilks. Para tamanos moderados el contraste es similar al de la razon de 
verosimilit-udes (10.23), que puede escribirse tambien como: 

|T| IW + B| 

A 0 = mlog — — = m log — — — — = mlog |I + W _1 B| (10.26) 

Desde el punto de vista del calculo de (10.26) como |I + A| = 11(1 + A*) donde A* son los 
vectores propios de A, este estadi'stico se reduce a 

A 0 = m^log(l + A i) 

donde A* son los vectores propios de la matriz W 1 B. 

Ejemplo 10.3 Vamos a aplicar este contraste para ver si se observan diferencias detectables 
en pequenas muestras en los datos de Medifis, entre las medidas fisicas de hombres y mujeres 
de la tabla A. 5. En la muestra hay 15 mujeres (variable sexo = 0) y 12 hombres (sexo = 1). 
El primer paso del analisis es calcular las m.edias y matrices de covarianzas en cada grupo, 


T = B + W, 
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por separado, y para el conjunto de los datos. En la tabla siguiente se presentan las medias 
para cada variable, para toda la muestra, y para los grupos de mujeres y hombres 



est 

pes 

pie 

Ibr 

aes 

dcr 

Irt 

total 

168.78 

63.89 

38.98 

73.46 

45.85 

57.24 

43.09 

mujeres 

161.73 

55.60 

36.83 

70.03 

43.33 

56.63 

41.06 

hom bres 

177.58 

74.25 

41.67 

77.75 

49.00 

58.00 

45.62 


son 


Las matrices de covarianzas dividiendo por n — 1 para toda la muestra, mujeres y hombres 

i 

Para las mujeres: 



" 37.64 








22.10 

80.40 







6.38 

7.36 

1.92 





S M = 

15.65 

12.94 

3.06 

7.41 





9.49 

14.39 

1.49 

3.99 

9.42 




2.75 

7.20 

0.76 

1.17 

2.559 

2.94 



9.02 

9.31 

1.98 

4.53 

1.12 

0.95 3.78 


Para los hombres 








45.53 






1 



48.84 

74.20 







9.48 

9.63 

2.79 





S H = 

14.34 

19.34 

2.09 

12.57 





14.86 

19.77 

3.23 

6.18 

6.77 




9.45 

9.90 

1.86 

2.36 

3.02 

3.13 



8.92 

5.23 

2.31 

1.21 

1.84 

2.63 6.14 


y para el conjunto de hombres y mujeres, 

se calcula 

como 

matrices 












S T = 

= (145m + 11Sjj)/25 

con lo 

que se 

obtiene 







' 41.11 








33.86 

77.67 







7.476 

8.36 

2.30 





S T = 

15.07 

15.76 

2.63 

9.68 





11.85 

16.76 

2.25 

4.95 

8.25 




5.70 

8.390 

1.24 

1.70 

2.76 3.03 



8.98 

7.52 

2.13 

3.07 

1.44 1.70 4.82 



Vamos a calcular el ratio de vero similitudes como cociente de las variabilidades promedio 
ante ambas hipotesis. Bajo H 0 se obtiene que la matriz de varianzas y covarianzas cuando 
suponemos la mism.a media, S conduce a la variabilidad prom.edio 

VP(H 0 ) = |S| 1/7 = 5.77 


mientras que 


VP(ifi) = |SJ 1/7 = 4.67 
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con lo que el contraste es 

27((27 - 1) - (7 + 7)/2) log(5.77/4.67) = 108.5 

que debe compararse con una y 2 con 7 grados de libertad, y no hay ninguna duda de que 
las diferencias son significativas. 

10.8 Contrast es de datos atfpicos 

El contraste de igualdad de medias puede aplicarse, como caso particular, para contrastar 
si una observation de una muestra de datos normales es ati'pica. La hipotesis nula sera que 
todos los datos vienen de la misma poblacion normal. La hipotesis alternat.iva sera que 
el dato sospechoso ha sido generado por otra poblacion desconocida. Para caracterizar la 
poblacion alternat-iva podemos suponer que la media es distinta y la varianza la misma, o 
que la media es la misma y la varianza distinta. Si supusiesemos que tanto la media como 
la matriz de covarianzas tendrfamos un problema de identificacion, porque no es posible 
con un solo dato estimar la media y la variabilidad. Puede comprobarse que los contrastes 
suponiendo la media distinta o la varianza distinta son similares (vease Pena y Guttman, 
1993) y aquf consideraremos el caso mas simple de media distinta pero misma matriz de 
covarianzas. Para aplicar este contraste a un dato sospechoso, x, , estableceremos: 

H 0 : E(xf) = /x; 

frente a 

Hi : Efc) = ^ ± /x; 

La funcion de verosimilitud bajo H 0 es (10.17). Bajo Hi, como la estimation /x, es x, , la 
estimacion de la varianza sera 

S (i) = — w (i) , 

n — 1 

donde 

n 

W (0= ( x ft i-x (i) )(x h -%))', 

h=l,j^i 

es la estimacion de la suma de cuadrados de los residuos, y xp) es la media de las observa- 
ciones, en ambos casos eliminando la observacion x, : . La diferencia de soportes es, particu- 
larizando (10.26): 

l T l 

A = n log — 

l w (0l 

y, se demuestra en el apendice 10.3, que se verifica la relacion: 

= 1 + -^ 2 ( x -%)) 

|Wp)| n 
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donde .D 2 (xj,xp)) es: 

D 2 (xj, x (i) ) = (xj - x (i) )'S^ ) 1 (xj - x (i) ). (10.27) 

la distancia de Mahalanobis entre el dat-o y la media sin incluirle. Por tanto, para realizar 
el test calcularemos la distancia de Mahalanobis (10.27), que se distribuira, si Ho es cierta, 
para muestras grandes como una y 2 . 

En la pract-ica, para detectar ati'picos se calcula el maximo de las distancias /7 2 (x, : , xp)) y 
este valor se compara con el percentil 0,95 o 0,99 de las tablas de percentiles del maximo de 
una y 2 . El problema, entonces, es que si existe mas de un atfpico, la pot-encia del contraste 
puede ser muy baja, al estar contaminadas las est-imaciones de los parametros. Un proced- 
imiento mas recomendable siempre que se trabaje con muestras que pueden ser heterogeneas 
es identificar primero todas las observaciones sospechosas, con los procedimientos indicados 
en el capi'tulo 3, y despues ir contrastando una por una si las observaciones se aceptan. 
Es decir, ordenamos todos los dat-os sospechosos por U 2 (xj,X(q) y contrastamos si el mas 
proximo puede incorporate a la muestra. Si se rechaza esta incorporation el procedimiento 
termina y todos los datos sospechosos son declarados ati'picos. En caso contrario, el dat-o se 
incorpora a la muestra y se recalculan los parametros y las distancias de Mahalanobis, y se 
vuelve a aplicar el procedimiento a las rest-antes excluidas. 


10.9 Contrastes de Normalidad 

Los met-odos mas utilizados en analisis multivariante suponen normalidad conjunta de las 
observaciones y conviene, cuando dispongamos de dat-os suficient-es, contrastar esta hipotesis. 


Normalidad unidimensional 


La normalidad de las distribuciones univariantes puede contrast-arse con los contrastes y 2 , 
Kolmogorov-Smirnov, Shapiro y Wilks, o con los contrastes basados en coeficientes de 
asimetrfa y curtosis, que pueden consult-arse en Pena (2001). Llamando 


donde 


A = 


m 3 

3/2 : 


m 


K 


777-4 
2 ’ 



Se demuestra que, asintot-icament-e, con dat-os normales: 


A ~ iV(0; 6/77); K ~ N( 3; 24/n) 

y por tant-o la variable 

2 nA 2 n (K - 3) 2 

A 2 = ( — 

6 24 

se distribuira, si la hipotesis de normalidad es cierta, como una y 2 con 2 grados de libertad. 
Rechazaremos la hipotesis de normalidad si A 2 > y 2 (a:). 
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Normalidad multivariante 


La normalidad multivariante implica la normalidad de distribuciones marginales unidimen- 
sionales, pero la existencia de esta propiedad no garantiza la normalidad multivariante de 
los datos. Para contrastar la normalidad conjunta existen varios contrastes posibles, y aquf 
solo comentaremos la generalization multivariante de los contrastes de asimetrfa y curtosis. 
(Vease Justel, Pena y Zamar (1997) para una generalization del contraste de Kolmogorov- 
Smirnov al caso multivariante). 

Definiendo los coeficientes de asimetrfa y curtosis multivariantes como en la section 3.6: 


A p 


n “ 


EE4 


K„ = -Y,d 


i = 1 


donde dij = (x* — x)'S x (xj — x), se verifica asintoticamente: 


nA p /6 ~ xj con / = -p(p + l)(p + 2) 


K p ~ N {jpijp + 2); 8 p{p + 2 )/n) 

La potencia de este contraste no es muy alta a no ser que tengamos una muestra muy 
grande. Dos casos frecuentes en la practica en que se rechaza la hipotesis de normalidad 
conjunta son: 

(1) Las distribuciones marginales son aproximadamente simetricas, y las relaciones en- 
tre las variables son lineales, pero existen valores atfpicos que no pueden explicarse por la 
hipotesis de normalidad. En este caso si eliminamos (o descontamos con un estimador ro- 
busto) los valores atfpicos, la normalidad conjunta no se rechaza y los metodos basados en 
la normalidad suelen dar buenos resultados. 

(2) Algunas (o todas) las distribuciones marginales son asimetricas y existen relaciones 
no lineales entre las variables. Una solution simple y que funciona bien en muchos casos es 
transformar las variables para conseguir simetrfa y relaciones lineales. 


10.9.1 Transformaciones 


Para variables escalares Box y Cox (1964) han sugerido la siguiente familia de transforma- 
ciones para conseguir la normalidad: 


x 


(A) 


(x+m) x — 1 

A 

In {x + m) 


(A 7^ 0) (x > —m) 
(A = 0) (to > 0) 


donde A es el parametro de la transformation que se est-ima a partir de los datos y la 
constants m se elige de forma que x + m sea siempre positiva. Por lo tanto, m sera cero si 
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trabajamos con datos positivos e igual en valor absoluto al valor mas negativo observado, en 
otro caso. Suponiendo m = 0 esta familia incluye como casos particulares la transformacion 
logarftmica, la rafz cuadrada y la inversa. Cuando A > 1, la transformacion produce una 
mayor separacion o dispersion de los valores grandes de x. tanto mas acusada cuanto mayor 
sea el valor de A mientras que cuando A < 1 el efecto es el contrario: los valores de x grandes 
tienden a concentrarse y los valores pequenos (x < 1) a dispersarse. 

Estas transformaciones son muy utiles para las distribuciones marginales. Para estudiar 
como determinar el valor del parametro con una variable escalar, supongamos que m = 0y 
que existe un valor de A que transforma la variable en normal. La relacion entre el modelo 
para los datos originates, x, y para los transformados, x (X> . sera: 

(10.28) 


f{x) = f{x w ) 


dxA> 


dx 


y como: 


dx Xx x 1 

~lx = a = ,J: 

y suponiendo que x ^ es N(/i, a 2 ), para cierto valor de A, la funcion de densidad de las 
variables originates sera: 


f(x) 




2 


X 


A— 1 


Por tanto, la funcion de densidad conjunta de X = (x*, ...,x n ) sera, por la independencia de 
las observaciones: 


/(X) 



(10.29) 


y la funcion soporte es: 

L(A;p,n 2 ) = -|ln(T 2 - |ln27T + (A- l)^lnx; - ~ ' 

Para obtener el maximo de esta funcion utilizaremos que, para A fijo, los valores de a 2 y ft 
que maximizan la verosimilitud (o el soporte) son, derivando e igualando a cero: 


= ~ ^( x(A) -£( a )) 2 | 


n 

d (A) = x w = 


x}_ 

n 


(A) 


n 


E 


x; 


A 


Al sustituir estos valores en la verosimilitud obt-enemos to que se denomina la funcion de 
verosimilitud concentrada en A. Su expresion es, prescindiendo de constantes: 


L W = -?ln^(A) 2 + (A-l)^ln 


Xj 


(10.30) 
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El procedimiento para obtener A consiste en calcular L (A) para distintos valores de A. 
El valor que maximice est-a funcion es el estimador MV de la transformacion. 

Para conseguir normalidad multivariante supondremos que existe un vector de paramet- 
ros A = (A, , X p ) que produce normalidad multivariante, donde A ; es la transformacion 
aplicada al componente j del vector. Aplicando un analisis similar al caso univariante, la 
funcion soporte multivariante concentrada en el vector de parametros de la transformacion 
es: 


L{ A) 


— — In 


E 

j = i 


(A, 


i)Ei nx ij , 

i = 1 


donde los parametros se han estimado aplicando las formulas habituales a los datos trans- 
formados: 



i= 1 


y 



i= 1 


La estimacion MV del parametro vectorial A no suele aportar mejoras importantes re- 
specto a transformar individualmente cada variable para que las marginales sean normales. 
Vease Johnson y Wichern (1998). 


10.10 Lecturas recomendadas 

En est-e capi'tulo hemos resumido un t-ema muy amplio sobre el que existe abundante bib- 
liograffa. El lector puede encontrar una buena introduction en ingles a los metodos de 
estimation y contrasts basados en la funcion de verosimilitud en Casella y Berger (1990). 
En espanol vease Peiia (2001) y las referencias alii indicadas. La estimation MV de la nor- 
mal multivariante se trata con detalle en Anderson (1984), Mardia et al (1979) y Muirhead 
(1982). Los contrastes de matrices de covarianzas se presentan claramente en Mardia et al 
(1979) y Rechner (1998). El analisis de la varianza multivariante es un tema muy amplio 
y puede ampliarse en Johnson y Wichern (1998), Morrison (1976), Seber (1984) y Rechner 
(1998). Metodos tradicionales para el contraste de datos atipicos pueden encontrarse en Bar- 
nett y Lewis (1994), y referencias a metodos mas recientes en Pena y Prieto (2001). Para 
la transformation multivariante de Box-Cox vease Gnanadesikan (1997) y Velilla (1993). 

Por razones de espacio no hemos incluido la aplicacion de nuevos metodos de estimation, 
como la estimation autosuficiente de Efron, al caso multivariante. El lector puede consultarla 
en Efron (1982) and Efron y Tibshirani (1993). 

Ejercicios 

10.1 Demost-rar que la verosimilitud L(V|X) = ^log|V“ 1 S| — ^trV -1 S es invariants 
ante trasnformaciones de las variables y = Ax, con A cuadrada no singular. 
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10.2 Obtener los estimadores maximos verosi'miles de los parametros en la normal multi- 
variante derivando en la funcion de verosimilit-ud (10.4). Para la varianza escribir la funcion 


como funcion de V 


... dlog v ^ 1 

y utilizar que — — 


= V, 


y 


dtrV - 1 S 
0V- 1 


= S. Comprobar entonces que 


aiqv-qx) „ | 

f dlog V- 1 

dtriV- 1 S)1 

av- 1 2 I 

[ av- 1 

av-i ) 


= |(V _ S) = 0. 


10.3 Demostrar que la funcion soporte de la seccion 10.2 puede escribirse como L(V|X) = 
— | log |V| — |frV _1 S(/i,), donde S(/x) = EiLi( x i — /x)(xj — R)' /n y utilizar esta expresion 
para demostrar que el estimador MV de V cuando restringimos los valores de r a una region 
A es es S (r), donde p, es el valor que maximiza ^)™ =1 (x — m) / ^~ 1 ( x — R) sobre A. 

10.4 Demostrar que la funcion de verosimilitud del ejercicio anterior 10.1 puede escribirse 
como L(V|X) = Ty- (log \ tJ — A), donde A,, y A son la media geometrica y aritmetica de los 
valores propios de la matriz V 1 S. 

10.5 Demostrar que el contraste del analisis de la varianza multivariant-e equivale a com- 
parar las medias geometricas de los valores propios de las matrices de variabilidad total y no 
explicada. 

10.6 Demostrar que el contraste del analisis de la varianza multivariant-e no se modifica si 
en lugar de trabajar con las variables originales lo hacemos con las component-es principales. 

10.7 Demostrar que el contraste multivariant-e de que una muestra viene de una poblacion 
es invariante ante transformaciones lineales no singulares de las variables. jComo sen'a el 
contraste si en lugar de las variables ut-ilizamo sus componentes principales? 

10.8 Demostrar que el estimador MV del parametro a 2 en el modelo x ~ N p (/x.rr 2 I) es 
a 2 = trS/p. 

10.9 Demostrar que el contraste H 0 : x~N p (/x,<7 2 V 0 ) frent-e a II \ : x~N p (/x, V) 
depende solo de la media aritmetica y geometrica de los valores propios V 0 'S. 

APENDICE 10.1: Inadmisibilidad de la media muestral 
para p > 3 

Stein (1956) demostro que parap > 3 la media muestral no es necesariament-e el estimador 
optimo de la media poblacional de una normal multivariante. Est-e result-ado es consecuencia 
de que si t-omamos como criterio seleccionar como estimador de r el que minimice el error 
cuadrat-ico medio de estimacion, dado por 


E [{r-r)'M 1 {ii — fi)\ , 


donde M es una cierta matriz que sirve para definir como se mide la dist-ancia entre el 
estimador R y el parametro r. Eligiendo M = I, el estimador: 


Rs 



(P~ 2) 1 
x'S-ix ) 


x , 


es sesgado para /x. pero puede demostrarse que tiene un error cuadrat-ico medio menor que x. 
Por tanto, con este criterio, /x s es mejor estimador que la media muestral y en consecuencia la 
media muestral se dice que es un estimador inadmisible si p > 3 , ya, que el estimador /x s t-iene 
siempre menor error cuadrat-ico medio. Observemos que r s “contrae” (shrinkage) el valor 
de x, ya que \r s \ < |x|. Est-e result-ado ha despert-ado un gran int-eres por los estimadores 
“shrinkage” que mejoran el error cuadrat-ico medio de los estimadores MV tradicionales. 
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APENDICE 10.2: RAZON DE VEROSIMILITUDES Y LA T 
DE HOTELLING 

Para demostrar la relation entre la razon de verosimilitudes y la T de Hotelling utilizare- 
mos el siguiente 

Lemma 1 Si A es una matriz no singular y b un vector, |I + Abb'\ = 1 + b'Ab. En efecto, 
observemos que la matriz bb 7 tiene rango uno y tambien tendra, rango uno Abb 7 . Por tanto, 
Abb 7 tiene un unico valor propio no nulo. Llamando X a este valor propio no nulo y v al 
vector propio, como Abb 7 r; = Xv, multiplicando por b' se obtiene que X = b'Ab. Entonces 
la matriz I + Abb' tendra un valor propio igual a 1+X y el resto seran la unidad . Como el 
determinante es el producto de los valores propios, queda demostrado el lema. 

Partiendo ahora de 


n 

nS 0 = - x + x - /z 0 )(xi - x 4* x - /x 0 ) 7 , 

i= 1 

y desarrollando en los terminos (x, — x) y (x — /x 0 ), resulta: 

nS 0 = nS + n(x - /z 0 )(x - /x 0 ) 7 . 


Por tanto 


S 0 


I s + (x- Mo)( x - /VI 

|S| 


|S 



que puede escribirse 

S = I S — 1 1 1 S + (x — /x 0 )(x — /x 0 )'| = |I + S _1 (x — /x 0 )(x — /x 0 )'| , 

y aplicando el lema anterior tenemos que: 

|I + S _1 (x - fi 0 )(x - fi o y I = 1 + (x - Mo) 7 S -1 (x - n 0 ), 
con lo que, tenemos finalmente que : 


-j^j" = 1 + ( x - M 0 )' s X ( x - Ro) = 1 + j- 

APENDICE 10.3: CONTRASTE DE VALORES ATIPICOS 

La relacion entre T y Wp) se obtiene restando y sumando xp) : 


T = - x (i) + x (i) - x)( Xj - - x w + x w - x) 7 , 

3 = 1 
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que resulta en 

n 

T = ^(xj - x (i) )(x i - %,)' + n(x (i) - x)(x w - x)' + F + F' 

3 = 1 

donde F = ^™ =1 (xj — xp))(xp) — x)'. El primer termino puede escribirse 

n 

- x w)( x i - %))' W (0 - (Xi - xp) ) (xj - x (i) y 

3=1 


y ut.ilizando que 


Hi) - x = x » 


(n — l)x(j) + Xj 1 
= (Xp) - Xj 


n n 

y reemplazando en todos los terminos (xp) — x) por (xp) — Xj)/n se obt-iene finalmente que 

Tl — 1 

T = Wp) + — — (xj - xp))(xj - xp } )' 

y, por tanto, 


|T| = |Wp)| 
y aplicando el lema del apendice 10.2 


77 / — 1 

1 + “T— w w ( x * ~ x w)( x * - %))' 

l i 


|w (i ,| 


= 1 + i(x 4 - - x (j) ) 

/ t 


donde S^ 1 — (n— l)Wj. Finalmente 


(*) 


DS = n log(l + ~ (xj - X p)) / Sp) 1 (xj - xp } )) 

y para n grande como log(l + x/n) ~ x/n , tenemos que la distancia de Mahalanobis 

D 2 (xj,xp)) = (Xj - X p)) / Sp) 1 (xj - xp)) ~ x 2 p- 
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Capftulo 11 


METODOS DE INFERENCIA 
AVANZADA MULTIVARIANTE 

11.1 INTRODUCCION 

En este capftulo vamos a presentar metodos mas avanzados de inferencia para dat-os multi- 
variant-es. En primer lugar presentamos un algoritmo para est-imar por maxima verosimilitud 
muestras con dat-os incomplet-os. Este algoritmo, el EM, es muy util para est-imar distribu- 
ciones mezcladas, que utilizaremos en el capftulo 14 en problemas de clasificacion y tambien 
es util en la estimacion del modelo factorial que se presenta en el capftulo 11. Ademas 
este algoritmo tiene un interes general por sf mismo para resolver la estimacion de valores 
ausentes en cualquier problema multivariante. A continuation se presentan los metodos ro- 
bust-os clasicos de estimacion, que pueden tambien considerarse como metodos de estimacion 
de mezclas en un caso especial: hay una distribution central, que genera la mayorfa de las 
observations, y una distribution contaminante de forma desconocida que introduce una 
pequena proportion de at-fpicos en la muestra. Se presentan brevement-e los metodos clasicos 
y se introduce un met-odo recient-e basado en proyecciones que es facil de implementar y que 
puede evit-ar el efect-o perturbador de los dat-os at-fpicos en la estimation de los parametros. Se 
presenta tambien una breve introduction a la inferencia bayesiana. Ademas de su atract-ivo 
met-odologico, la inferencia bayesiana permite incorporar informacion a priori, que puede ser 
importante en problemas de clasificacion (capftulo 12, analisis discriminante) y construction 
de conglomerados (capftulo 14, clasificacion mediant-e mezclas). Los metodos bayesianos son 
tambien utiles en analisis factorial (capftulo 11). Finalment-e, los metodos bayesianos de 
estimacion por Mont-ecarlo son muy eficaces para la estimation de mezclas, como veremos en 
el capftulo 14. En est-e capftulo se revisa brevement-e el enfoque Bayesiano para la estimation 
y el cont-raste de hipotesis y se deduce un criterio de comparacion de modelos a partir de 
este enfoque. Finalmente se presentan algunos metodos clasicos y bayesianos para selection 
de modelos. 

Este capftulo es mas avanzado que los anteriores y puede salt-arse en una primera lectura 
sin perdida de continuidad, ya que la comprension basica de los metodos que se presentan 
en los capftulos siguient-es no requiere el material de est-e capftulo. Sin embargo este capftulo 
sera necesario para el lector int-eresado en los det-alles de aplicacion de los metodos, y en 
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la comprensibn de los algoritmos de estimation actuates para el analisis multivariante y los 
metodos de data mining, que estan adquiriendo una popularidad creciente. 


11.2 ESTIMACION MV CON DATOS FALTANTES 

La estimation maximo verosfmil con datos falt-ant-es es importante por dos razones princi- 
pales. En primer lugar, es posible que la muestra tenga observaciones faltantes en algunas 
variables. Por ejemplo, si tomamos una muestra de personas desempleadas y queremos rela- 
tional’ sus caract-erist-icas fi'sicas con la duration de desempleo, es posible que para algunas 
personas no se consiga este dato. (En otros casos podemos t-ener information partial, por 
ejemplo un valor superior o inferior de la duration, y en estos casos decimos que el dato esta 
censurado o truncado, no consideraremos estos casos en este libro). Como segundo ejemplo, 
si hacemos una encuesta de opinion, y representamos por x el vector de respuestas de un 
individuo, es posible que determinadas preguntas del cuest-ionario no sean respondidas por 
algunos individuos, dando lugar a un problema de datos faltantes. Si los datos faltantes 
ocurren en unos pocos element-os de la muestra, podemos eliminar las observaciones incom- 
pletas, pero si ocurren en una proportion importante de observaciones, podemos mejorar la 
precision de las est-imaciones utilizando t-odos los datos, con el cost-e de un mayor esfuerzo 
computational. 

En segundo lugar, la estimation MV de muchos modelos de analisis multivariante puede 
realizarse mas facilmente con este algoritmo. Por ejemplo, en el modelo factorial, que estu- 
diaremos en el capi'tulo 12, o en la estimation de distribuciones mezcladas para clasificacion, 
que est-udiaremos en el capi'tulo 15. En el primer caso, podemos suponer que los fact-ores son 
variables ausent-es y en el segundo, que falt-an los valores de las variables de clasificacion que 
nos indican de que poblacion proviene cada elemento. 

Intuitivamente, el procedimiento para estimar los parametros de un modelo con una 
muestra que contiene dat-os faltantes podn'a ser: 

(1) estimar los parametros del modelo con los datos que estan completos, maximizando 
la verosimilitud de la forma habitual; 

(2) Ut-ilizar los parametros estimados en (1) para predecir los valores ausentes; 

(3) Sustituir los dat-os ausent-es por sus predicciones y obtener nuevos valores de los 
parametros maximizando la verosimilitud de la muestra complet-ada. 

Adicionalment-e podrfamos it-erar entre (2) y (3) hast-a que se obtenga convergencia, es 
decir hasta que el valor de los parametros no cambie de una iteration a la siguiente. Veremos 
en la section siguiente que este procedimiento intuitivo es optimo en muchos casos, pero no 
siempre. La razon es que no tiene en cuent-a como se utilizan los dat-os ausent-es para estimar 
los parametros a partir de la verosimilitud. Por ejemplo, supongamos el caso mas simple 
de una variable escalar, x, y un unico parametro a estimar, 9. Supongamos que la funcion 
soport-e para 9 es de la forma: 9 2 — 20 x 2 . Entonces, el estimador MV de 9 es, derivando 

respecto a 9 e igualando a cero, 9mv = Supongamos ahora que la observation x\ 

falt-a. Para obtener ent-onces el estimador 9 MV tendriamos que estimar el valor esperado 
de xf a la vist-a de la information disponible y ut-ilizar lo en 9mv = X] x~ . Si en lugar del 
valor esperado de x\ calculamos el valor esperado de x\ y lo sustituimos en esta ecuacion 
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elevado al cuadrado, como en general E(x\) ^ [E{x i)] 2 , est-e segundo procedimiento no es 
necesariamente bptimo. Por ejemplo, si la variable x \ tiene media cero dada la informacion 
disponible lo que necesitamos es calcular su varianza, Eixf). y sustituirlo en la ecuacion del 
parametro. Esto no es lo mismo que calcular E{x\). que es cero, y sustituirlo como X\. con 
lo que x\ sera cero. Un procedimiento eficiente y general para maximizar la verosimilitud 
cuando tenemos datos faltantes es el algoritmo EM (Dempster, Laird y Rubin, 1977), que 
extiende el procedimiento intuitivo anterior, como describimos a continuacion 

11.2.1 Estimacion MV con el algoritmo EM 

Supongamos que tenemos una muestra de tamano n de una variable vectorial, x, pero en 
algunos de los n element-os observados faltan los valores de algunas variables. Por ejemplo, 
observamos el peso y la altura de personas y en algunos casos tenemos solo el dat-o de la 
estatura o solo el dat-o del peso. Vamos a suponer que est-os dat-os ausent-es aparecen al azar, 
es decir, que en el ejemplo anterior la falt-a del dat-o del peso no aparece con mas frecuencia 
en individuos de peso alt-o o bajo o con estatura mas alta o mas baja, sino que falt-a ese 
dat-o por razones no relacionadas con los valores de las variables. Para cada element-o no 
hay una relacion ent-re los valores observados y la aparicion o no de un dat-o ausent-e. Un 
ejemplo donde no se cumple esta condicion es una encuesta de opinion donde las personas que 
manifiestan desacuerdo en un punto, por ejemplo con la pregunta diez, dejan de responder 
al cuest-ionario a continuacion. En est-e caso, los valores ausentes en la pregunta once no 
aparecen al azar, sino que son consecuencia del desacuerdo con la pregunta diez. 

Los dos casos mas importantes de aparicion de valores ausent-es son: 

(1) Algunos element-os tienen dat-os falt-ant-es: los element-os de la muestra x!,...,x ni , 
estan completes, pero los rest-ant-es, x ni+1 , ..., x n , carecen de los valores de algunas variables, 
o de t-o das ellas; 

(2) Algunas variables tienen dat-os faltantes: si dividimos el vector de variables en dos 
grupos y escribimos x = (y' . z las variables y est-an complet-as pero las z t-ienen dat-os 
ausentes. 

Para plant-ear el problema de manera que englobe estos dos casos, supondremos que 
tenemos una muestra con una matriz de dat-os observados Y = (y 1 ,...,y n ), donde y, es 
un vector pi x 1, y un conjunt-o de dat-os ausentes Z = (z, , ...,z m ), donde z, es un vector 
j >2 x 1. Esta formulacion cubre los dos casos anteriores, ya que en el primero t-omamos 
zi = x ni+1 , ..., z m = x n y m = n — n\ + 1. En el segundo m = n. 

Este conjunto de variables proviene de un modelo con parametros 0. y se desea estimar 
el vector de parametros con la informacion disponible. La funcibn de densidad conjunta de 
todas las variables (Y, Z) puede escribirse 

/( Y,Z|0) =f(Z\Y,0)f(Y\0) 


que implica 


log f(Y\0) = log /( Y, Z\0)~ log /( Z|Y, 6). 


En la estimacion MV el primer miembro de est-a expresion, log f(Y\0). es la funcibn 
soporte de los datos observados, cuya maximizacibn sobre 6 nos proporcionara el est-imador 
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MV de los parametros. El termino log/(Y, Z|0) es la funcion soporte si hubiesemos obser- 
vado la muestra completa, y el termino log /(Z|Y, 0) proporciona la densidad de los datos 
ausentes conocida la muestra y los parametros. Podemos escribir 

L(0\Y) =L c (0\Y , Z)— log /(Z|Y, 0). (11.1) 

Es frecuente que la maximizacion del soporte supuesta la muestra completa, Lc (0|Y,Z), 
sea facil, mientras que la maximizacion del soporte con los datos observados, L{6 |Y), sea 
complicada. El algoritmo EM es un procedimiento iterativo para encontrar el estimador MV 
de 6 trabajando siempre con la funcion mas simple, Lc(6 |Y, Z), en lugar de la compleja, 
L{6 |Y). La estimacion se obtiene it-erando en los dos pasos siguientes: 


^{i) 

1. Partiendo de un estimador inicial, 6 , (en la primera iteration % — 1) se calcula 
la esperanza de las funciones de los valores ausentes que aparecen en la funcion de 
verosimilitud completa, Lc(0 |Y, Z), con respecto a la distribucion de Z dados el valor 

6 y los datos observados Y. Sea: 

Lh(8 |Y)=E Z/S („ [L c (0|Y,Z)] 

el resultado de esta operacion que se denomina el paso E (de tomar valores esperados) 
del algoritmo. Observemos que cuando Lc(0 |Y,Z) sea una funcion lineal de Z, este 
paso llevara a sustituir en esta funcion los valores ausentes por sus esperanzas dados 
los parametros. Sin embargo, cuando en la verosimilitud aparezcan funciones g ( Z ) 
calcularemos la esperanza de est-as funciones dados el resto de los datos y la estimacion 
disponible de los parametros. 


2. A continuacion se maximiza la funcion L* C (G |Y) con respecto a 6. Este es el paso 
M (maximizacion) del algoritmo. Este paso M equivale a maximizar la verosimilitud 
completa donde se han sustituido las observaciones faltantes por ciertas estimaciones 
de sus valores. 


V*+i) 

3. Sea 6 el estimador obt-enido en el paso M. Con este valor volvemos al paso E. Se it- 


era entre ellos hasta obtener convergencia, es decir hasta que la diferencia 
sea suficientemente pequena. 


e 


(<+l) 


e 


{ i ) 


Puede demost.rarse (Dempster, Laird y Rubin, 1977), vease el apendice 11.1, que este 
algoritmo maximiza L(6 |Y). Ademas, la verosimilitud aumenta en cada it-eracion, aunque 
la convergencia puede ser muy lenta. 

A continuacion presentamos dos ejemplos de utilizacion del algoritmo. En el primero, la 
funcion de verosimilitud completa es lineal en los datos ausentes, con lo que les sustituimos 
por sus estimaciones. En el segundo, los valores ausentes aparecen de forma no lineal en la 
verosimilitud, y sustituiremos est-as funciones por sus estimaciones. 
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11.2.2 Estimacion MV de mezclas 

Para ilustrar el comportamiento del algoritmo EM vamos a considerar un problema simple de 
estimacion de mezclas que abordaremos con mas generalidad en el capi'tulo 14. Supondremos 
que los datos de una muestra, x ( . . . . , x„ se generan mediante la distribution 


tti/i(x) + (1-tti)/ 2 (x) 


donde ./)(x) es N p (ji l . V, : ), i = 1,2. La funcion soport.e para la muestra es 

n 

L(0\X) + (l-7Tl)/2(Xi)) 

i=l 

donde 6 = (n v fj, 2 , V 1; V 2 , 7Ti) es el vector de parametros. La estimacion MV de los paramet- 
ros es complicada, porque tenemos que resolver las ecuaciones: 

dL(6 |X) ^ fijxi) - fite) M19 , 

dn, ^Tn/^x^ + a-TT O/afc) 1 

Para interpretar esta ecuacion llamemos 

= 7Tl/l(Xj) 

71-14 TTi/^Xi) + (l-7Ti)/ 2 (x i ) 

a la probabilidad a posteriori de que la observation i sea generada por la primera poblacion. 
Entonces 

, _ = (l-TTi )/ 2 (Xj) 

1? 7Ti/i(Xi) + (l-7Ti)/ 2 (Xi) 

y la ecuacion (11.2) puede escribirse: 


n 



1 - 7Tli 
(1— TTi) 


= 0 


que equivale a 

n 

y^(7Tlt - 7Tl) = 0 

i = 1 

Es decir 

E n 

i=l 

711 = 

n 

Esta ecuacion indica que la probabilidad est-imada de pertenencia a la primera poblacion debe 
ser igual al promedio de las probabilidades estimadas de que cada observation pertenezca a 
esa poblacion. Desgraciadamente no puede aplicarse directamente porque para calcular las 
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7Ti i necesitamos todos los parametros del modelo. Derivando la funcion soporte respecto a 
Mi : 

dL(6\X) = - Mi) = 

9 ll I “ 7n/i(Xi) + (l-7T 1 )/ 2 (x i ) 

que puede escribirse como 

n 

y^7Tli(Xj - Mi) = 0 

i=l 

de donde obtenemos: 

(11.3) 

que indica que la media de la primera poblacion se estima dando un peso a cada observacion 
proporcional a la probabilidad relat-iva de pertenecer a esta poblacion. El mismo resultado se 
obt-iene por simetrfa para /X 2 iutercambiando TX\ g por n 2g = 1 — 7r lff . Analogamente, derivando 
respecto a V, puede demostrarse que el estimador es: 

(11.4) 

que tiene un interpretation similar, como promedio de desviaciones de los datos respecto a 
sus medias, con pesos proporcionales a las probabilidades a posteriori. 

Para resolver estas ecuaciones y obtener los estimadores necesitamos las probabilidades 
ttu, y para calcular estas probabilidades con (15.10) necesitamos los parametros del modelo. 
Por otro lado vemos que si las observaciones estuviesen clasificadas como viniendo de una 
u otra poblacion el problema es muy simple, porque entonces X | ,, es uno, si la i proviene 
de la primera poblacion o cero, si viene de la segunda, y las formulas (11.3) y (11.4) se 
reducen a aplicar las formulas de estimation habituales a las observaciones de cada grupo. 
Intuit ivamente, podn'amos partir de una asignacion, estimar los parametros y calcular las 
probabilidades tt u e iterar entre ambas etapas y esta es la solution que se obtiene con el 
algor it mo EM. 

Como la estimation es muy simple si tenemos bien clasificadas las observaciones vamos 
a aplicar el algoritmo EM introduciendo 2 n variables de clasificacidn que van a indicar de 
que poblacion proviene cada dato muestral y que consideraremos como datos auseutes. Las 
primeras n variables Z\ r . i = 1 , ...,n se defineu mediante : 


Vi = Et 


Fla 


i=1 E?=i 5f i s 


(xi - Mi )(xi - Mi)' 


Mi — zJi=i 


Trig 


E?=i SfiP 


zu = 1, si Xj proviene de f\ 

= 0, si Xj proviene de / 2 

y analogamente z 2l se define para que tome el valor uno si Xj proviene de / 2 , de manera que 
z\i + Z 2 i = 1. Para escribir la verosimilitud completa de las variables x y de las z tenemos 
en cuenta que, llamando 6 al vector de parametros, para una observation cualquiera: 

/(X!, Zu, Z2l\0) —f (xi/ Zu, z 2 10)p(z n , Z 2 l\0) 
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donde 


/(xi|zn,Z 2 i 0 ) =/i(xi) 2ll / 2 (xi) 221 

ya que si zn = 1 la dato xi proviene de f\ y entonces forzosamente z 2 \ = 0 y viceversa. La 
probabilidad de los valores z es: 


p(zu,z 2 i\0) =7i z l 11 (l-7T 1 ) Z21 

ya que la probabilidad de z n = 1 (en cuyo caso z 21 — 0 ) es 7 iq. Uniendo ambas ecuaciones 
podemos escribir 


log /(x 1 , Zn, Z2l\0) =Z 11 log 7Ti + Zn log fl(x 1 )+Z 2 l log (l-7Ti) + Z 21 log / 2 (x 1 ) 


y, para toda la muestra, llamando X = (xi, x n ) e incluyendo las variables de clasificacion 
Z = (z 11 , z ln , Z21 , ..., Z2n) es 

l ( x , z \ o ) = Zli log7Ti + ^2ijlog/i(Xj)+^2:2ilog(l-7ri) -f log/ 2 (Xj) (11.5) 


Para aplicar el algoritmo EM primero necesitamos una estimacion inicial de los paramet- 
ros. Est.o puede hacerse representando graficamente los datos en un diagrama de dispersion 
bivariante y diviendo en funcion de ese grafico los datos en dos grupos. Supongamos que 
tomamos como grupo 1 el de menor dispersion aparente. Entonces definimos unos valores 
iniciales para las variables z, que llamaremos zA ] de manera que z\) ] = 1 si la observation 
Xj se clasifica en la primera problacion (entonces z!% = 0) y cero si se clasifica en la segunda 
(entonces z^ = 1). Una vez definidas estas variables de clasificacion estimaremos las medias 
mediante 






(i) 

1 i 


( 11 . 6 ) 


y lo mismo para ■ Analogamente, estimaremos la matriz de varianzas y covarianzas 
mediante 


v?) 


Ed 1 


n 



i= 1 


(11.7) 


que es simplement-e la matriz de covarianzas muestrales de las observations de ese grupo. 
Finalmente, estimaremos la probabilidad de que un dato pertenezca al grupo uno por la 
proportion de datos en ese grupo: 



Ed’ 


( 11 . 8 ) 


A continuation tomamos esperanzas en la distribution conjunta (11.5) respecto a la distribu- 

-(i) 

cion de los z supuesto este valor inicial 6 de los parametros. Como las variables z aparecen 
linealmente, esto se reduce a calcular sus esperanzas y sustituirlas en la ecuacion (11.5). Las 
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1 

2 

3 

4 

5 

6 

7 

8 

9 

10 

0.837 

-0.722 

-0.722 

-0.201 

-0.021 

0.279 

2.143 

4.382 

4.219 

0.337 

-0.655 

-1.081 

-0.048 

0.379 

-0.330 

-0.500 

3.530 

5.355 

2.324 

1.623 

11 

12 

13 

14 

15 

16 

17 

18 

19 

20 

2.408 

0.595 

6.925 

3.680 

-1.265 

-0.538 

6.351 

5.289 

4.868 

-2.191 

2.992 

1.310 

4.634 

3.565 

0.264 

1.052 

3.896 

2.549 

2.556 

-0.414 


Tabla 11.1: Datos simulados, los 6 primeros de una distribution y los 14 siguientes de otra 

variables z son binomiales puntuales, y su esperanza coincide con la probabilidad de que 
tomen el valor uno. Por tanto: 


Zli 


E(z u |^ (1) ,Xj) = P(zu 



,Xj) 


y esta probabilidad se calcula mediante el teorema de Bayes 


P(zu 


tiW „ n = 7rj 1) /i(x 1 |g (1) ) 

7fS 1) /i(x 1 |0 (1) ) + (l-^ 1) )/ 2 (x 1 |0 (1) ) 


(11.9) 


Una vez obtenidos los valores z, J% los sustituiremos en la funcion de verosimilitud (11.5) y 
la maximizaremos respecto a los parametros. Esto conduce a resolver las ecuaciones (11.6), 
(11.7) y (11.8) pero sustituyendo ahora las por las estimaciones zji . Observemos que 
ahora las Zj] ya no seran valores cero o uno, y la formula (11.6) ya no calcula la media de las 
observaciones de un grupo sino que hace una media ponderada de todas las observaciones 

con peso proportional a la probabilidad de pertenecer al grupo. Esto propocionara otro 

^(2) 

uuevo estimador 0 que, mediante (11.9) conducira a nuevos valores de las Zj tl y el proceso 
se itera hast.a la convergencia. 


Ejemplo 11.1 Vam.os a ilustrar el funcionamiento del algoritmo EM para estimar distribu- 
ciones normales con datos simulados. Hemos generado 20 observaciones de una variable bidi- 

mensional de acuerdo con el modelo .3JV(0, J) + .71V(/i, V) donde fi = (2, 2)' y V = 

Los datos generados, donde los seis primeros provienen de la primera mezcla y los 14 sigu- 
iente de la segunda se presentan en la tabla 11.1 

Para obtener una estimacion inicial de los parametros, consideramos el histogram, a de 
cada variable. 


2 2 
2 4 
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Figura 11.1: Histograma de la primera variable de la mezcla de normales 


El histograma de la primera variable represent. ado en la figura (11.1) indica que los 
datos parecen ser mezcla de dos poblaciones con medias (0, 4) y similar variabilidad. Las 
desviaciones tfpicas de las poblaciones sobre esta variable son del orden de uno. El histograma 
de la segunda, figura (11.2), parece de nuevo tambien una mezcla, aunque dadas las pocas 
observaciones no es muy claro. Las medias parecen ser (0,3) pero ahora parece haber mas 
variabilidad en la segunda variables que en la primera. El diagrama de dispersion de las 
variables de la figura (??) indica dos grupos y correlacion entre las variables. A primera 
vista este grafico de dispersion sugiere dos poblaciones, la primera con 11 elementos y media 
proxima al punto (0,0) y la segunda con nueve elementos y media alrededor del punto 
(4,3). Uniendo la informacidn univariante y bivariante vamos a t.omar como estimacion 

initial = (0, 0)', p^ = (4, 3)' y matrices de covarianzas = 

| \ . Para las proporciones tomaremos la estimation inicial mas simple 7Ti = 7 t 2 = .5. 


1 .5 
.5 1 


yvf 


Una asignacion mejor serfa clasificar las varaibles en los grupos y estimar a partir de esa 
clasificacion los parametros pero vamos a t.omar una estimation inicial rapida para ilustrar 
como funciona el algoritmo con estimaciones iniciales no muy precisas. 
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Figura 11.2: Hist.ograma de la segunda variable en la mezcla de normales 


Diagrama de dispersion de las dos variables. 

La aplicacion del algoritmo EM se resume en la tabla siguient.e. Se indican las iteraciones, 
el valor de 7r l5 y las medias estimadas de cada variable en cada iteration. 


iter 

7Tl 

Abi 

Fl2 

I 1 21 

^22 

1 

0.5551 

-0.3021 

0.1780 

4.4961 

3.4869 

2 

0.5488 

-0.3289 

0.1435 

4.4614 

3.4826 

3 

0.5479 

-0.3308 

0.1408 

4.4551 

3.4798 

4 

0.5478 

-0.3311 

0.1404 

4.4536 

3.4791 

5 

0.5477 

-0.3311 

0.1403 

4.4533 

3.4790 

6 

0.5477 

-0.3311 

0.1403 

4.4532 

3.4789 


Se observa que la convergencia se alcanza bastante rapido, y que los resultados obtenidos 
son consistentes con los datos del grafico de dispersion de las variables. En efecto, once 
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observaciones son clasificadas eii el primer grupo y nueve en el segundo. Las probabilidades 
a posterior de cada observacion de pertenecer al grupo 1 son ( 0.9999 1.0000 1.0000 0.9998 

I. 0000 1.0000 0.0003 0.0000 0.0000 0.9725 0.0008 0.9828 0.0000 0.0000 1.0000 0.9989 0.0000 
0.0000 0.0000 1.0000). Esto es consecuencia de que algunas observaciones generadas por el 
grupo 2 han aparecido muy prbximas a las del grupo uno y, en consecuencia, se han marcado 
como provenientes del grupo 1. La estimation final de las matrices de covarianzas es 

_ r 0.7131 0.1717 1 r 2.3784 0.4209 ' 

Vl ““ [ 0.1717 0.6841 J y “ [ 0.4209 0.9414 ' 

Se ha comprobado que esta solucion no parece depender de los valores iniciales. Comen- 
zando con V\ = V? = I se obtiene la misma solution y si tomamos como valores iniciales 
los exactos utilizados para general - los datos se obtiene de nuevo este resultado. El problema 
es que esta estimation es consistente con los datos, y dado el pequeno tamano muestral la 
precision de los estimadores es baja. Si repetimos el problema con n = 100 los parametros 
obtenidos se aproximan mucho mas a los verdaderos, pero la convergencia es muy lenta y 
hacen falta mas de 50 iteraciones para alcanzarla. 

II. 2.3 Estimacion de poblaciones normales con datos ausentes 

Vamos a aplicar el algoritmo EM para estimar los parametros de una distribution normal 
multivariante cuando disponemos de observaciones ausentes. La funcion de verosimilitud 
para una muestra sin valores ausentes puede escribirse, segun (10.4), en funcion de las ob- 
servaciones 

1 n n 

L(n, V|X) = -tiog |V| - -tr(V- 1 X(X') - (L'V“V + /iV 1 ( 1110 ) 

i=l i= 1 

y sabemos que la estimation MV cuando tenemos toda la muestra es ji = , x,/n y 

V = S = Yli =1 Xixl/n - /7/7'. 

Supongamos ahora que los vectores de observaciones x, , ..., x m (to < n) estan completos, 
pero que los vectores x m+i = z | , . . . , x n = z n _ m carecen de los valores de algunas variables 
(o de todas ellas). Con la notation de la section anterior, sea Y el conjunto de datos 
disponibles y Z las variables ausentes. La funcion de verosimilitud completa viene dada por 
(11.10). Para aplicar el algoritmo EM, comenzaremos calculando un estimador inicial con 
los datos disponibles, y sean fi ir> y V (0) estos estimadores iniciales. Tomamos = m ( 0) y 
yb) = V ( °) y iteraremos entre los dos pasos siguientes: 

1. Paso E. Hay que calcular la esperanza de la funcion de verosimilitud completa (11.10) 

respecto a la distribution de los datos faltantes Z, dados los parametros 0 ' . V^)) y 
los datos observados Y . En esta funcion los datos faltantes aparecen en dos terminos. El 
primero es /x V 1 , x, , y all! aparecen de forma lineal, por lo que tendremos simplemente 

que sustituir los datos ausentes por sus estimaciones. El segundo es tr(V _1 Y^i=i x?:x'), y 
aquf tendremos que sustituir las expresiones x,x' por sus estimaciones. Comencemos con 

el primer termino, tomar esperanzas de dados los parametros y los datos conocidos implica 

. — .(*) 

sustituir x* para % > m por /7(x ; /Y, 0 ). El calculo de esta esperanza se realiza como 
sigue: 
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(a) Si el vector x, es completamente inobservado, es decir, no se ha observado ninguna 

variable para ese elemento, entonces E(xi/Y,6 no depende de los datos ob- 
servados. Puede comprobarse que, finalmente, esta sustitucion es equivalente a desechar 
completamente esta observacion, lo que resulta intuitivo. Si no observamos en un elemento 
ninguna variable es equivalente a no tomarlo en la muestra. 

(b) Si el vector x, = [x' u x 2 J' se observa parcialmente, de manera que no conocemos 
los valores de ciertas variables xi„ pero si hemos observado los valores de otras x 2i , entonces 

i?(xj/Y, 6 ) depende de los valores observados de x 2l y sera igual a la esperanza condiciona- 

. — .(i) 

da -E(x 1 j/x 2 j,0 ). Esta esperanza se calcula, segun la seccion 8.5.1, por regresion mediante 


E(*ul Y.e (i) ) 


^(xn/x 2i ,0 (,) ) = xg 2 



+ vgvgi 


x 2 * 



(11.11) 


donde hemos part-icionado el vector de medias y la matriz de covarianzas con relacion a los 
dos bloques de variables. 

Para calcular la esperanza del segundo termino, observemos primero que E [dr(V 1 XuLi x * x !:)] 
tr [E(V _1 Y^i= i x*x')] = tr [V -1 Y2i= i -E(xjx')] . Por tanto tenemos que obtener las esperan- 

zas £’(x i x'/Y, 6 ) para i > m. Consideremos, como antes, los dos casos siguientes: 

(a) Si el vector es completamente inobservado, E(xjx'/Y, 0* ^ ^g 

nuevo, puede comprobarse que esto va a ser equivalente a desechar completamente esta 
observacion. 

(b) Si el vector x, se observa parcialmente y no conocemos los valores de x i ,, pero si los 
de x 2 j, utilizaremos la relacion 


;(d 




E(*iix!u/Y,O y ' J ) = E(x u x. , li /x 2 i,G v ') = V£ 2 + x^ 2 x 


Kd c(d' 


L l*. 2 


(U-12) 


donde 2 es la matriz de varianzas de la variable x u dado x 2 , . Segun la seccion 8.5.1 esta 
varianza condicionada viene dada por 


Kd 

11.2 


Kd 

11 


Kd-i 

12 


Kd~L 
22 


Kd 

21 • 


(11-13) 


que podemos calcular a partir de V-'- 1 y sustituir en (11.12). 

2. Paso M. En la funcion de verosimilitud completa (11.10) reemplazamos las fnn- 
ciones de los valores ausentes por sus estimaciones (11.11) y (11.12) y calculamos los nuevos 
estimadores de maxima verosimilitud, que vendran dados por 




(<+l) 


E n 

i= 1 


n 



donde en x,-^ los valores observados no se modifican y los no observados se han sustituido 
por sus esperanzas condicionales (11.11). La estimacibn de V^ +1 ^ sera 


n _ (*+l) 

V ( i+D = J2 E(x,x:/Y,g (l) )/n - £ m‘ + ‘" 


i=l 
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donde las esperanzas de los valores observados son ellos mismos y las de los faltantes vienen 
dadas por (11.12) y (11.13). 

Con los valores estimados en el paso M volvemos al E, haciendo ji n = p)' ' 1,1 y V« = 
Vb +1 ). El algoritmo finaliza cuando el cambio en los parametros de una iteration a la siguiente 
es menor que un valor pequeno, como .001. A continuacibn, presentamos un ejemplo de su 
funcionamiento. 

Ejemplo 11.2 Vamos a ilustrar el funcionamiento del algoritmo EM con los diez primeros 
datos de las variables estatura y peso de la base de datos MEDIFIS. Supondremos que en las 
tres primeras personas en la muestra no se ha observado la variable peso. Llamando x\ a 
esta variable, la muestra es: x\ = (*, *, *, 52, 51, 67, 48, 74, 74, 50), donde el signo * indica 

que el valor esta ausente. Sin embargo, suponemos que se han observado los diez valores de 
la variable estatura: x 2 = {159, 164, 152, 167, 164, 151, 168, 181, 183, 158) 

Ejercicio 11.1 Para comenzar el algoritm.o obtenemos una estimacion inicial del vector de 
medias con los diez datos de x 2 y los siete de X\. Este vector es p^ = {59-43, 167.7). Con las 

siete parejas de datos completos calculamos la m-atriz de covarianzas = 

Con estos parametros iniciamos el paso E, calculo de las esperanzas condicionadas. La es- 
peranza condicionada (regresion) de la primera variable en la segunda es 

E{x 1 /x 2 ) = 59.43 + 70. 06/79. 26(x 2 - 167.7) 

es decir, el peso se preve con la recta de regresion entre peso y estatura cuyo coeficiente de 
regresion es 70.06/79.26 = .8839. Aplicandolo a los valores faltantes 


E 

Xu 

X\ 2 

= 59.43 + 70.06/79.26 

' 159 - 167.7 ' 
164 - 167.7 



' 51.738 ' 
56.158 


243 


172 - 167.7 


63.229 


Despues de esta primera estimacion de los valores ausentes, estimaremos los productos 
cruzados. Los productos de la primera variable por la segunda son : 

E{x li x 2 i/Y,d {l) ) = x 2 iE{x u /x 2 i,d {l) ) 


118.24 70.06 
70.06 79.26 


que seran 159 x 51.738, para i=l, 164 x 56.158, para i=2, y 172 x 63.229, para i=3. Los 
cuadrados de la variable ausente se estima por 

E(4/Y,? (i) ) = V« 2 +x<g 

donde V^_ 2 es l a varianza residual de la regresion entre el peso y la estatura dada por 
118.24 — 70.06 2 /79.26 = 56.31. Por t.ant.o para i = 1,2,3 los valores seran 56.31 + 51.738 2 = 
2733.13, 56.31 + 56.158 2 = 3210.03, 56.31 + 63.229 = 4.0542. 

Con estas estim.aciones pasamos al paso M. En el calculo de la media, la nueva estimacion 
sera = {58.71, 167.7) donde ahora la primera componente se calcula con diez datos, 
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N a 

Xu 

Xl2 

x-n 

Th 

Sl2 

4 

ssf 

1 

51.739 

56.159 

63.229 

58.713 

58.577 

107.582 

90.686 

2 

52.283 

55.978 

61.890 

58.615 

57.594 

108.300 

89.012 

3 

52.294 

55.927 

61.740 

58.596 

57.540 

108.865 

88.929 

4 

52.281 

55.910 

61.717 

58.591 

57.547 

109.070 

88.941 

5 

52.275 

55.905 

61.713 

58.589 

57.553 

109.135 

88.948 

6 

52.272 

55.903 

61.711 

58.589 

57.555 

109.156 

88.9515 

7 

52.272 

55.902 

61.711 

58.588 

57.556 

109.162 

88.9525 

8 

52.271 

55.902 

61.711 

58.588 

57.556 

109.164 

88.953 

9 

52.271 

55.902 

61.711 

58.588 

57.556 

109.164 

88.953 


Tabla 11.2: Estimaciones del algoritmo EM en las distintas iteraciones 


sustituyendo los ausentes por sus estimaciones. Para calcular la matriz de covarianzas se 
utiliza la expresion 


1 

i 

M 



58.71 2 

58.71 x 167.7 ' 

To 

yr x^x2i 

M 

to to 


58.71 x 167.7 

167.7 2 


donde los valores Xu son los observados (para i=4,---,10) o las estimaciones de los ausentes 
(para i=l,2,3) y analogamente para xf i . Observemos que la estimacion de x( t NO es la 
estimacion de Xu elevada al cuadrado sino que ademas se le anade el valor de la varianza 
residual como hemos visto. 

La tabla 11.2siguiente indica la evolucion de las estimaciones proporcionadas por el al- 
goritmo hasta la convergencia para los valores ausentes, la media de la primera variable, la 
covarianza y la varianza de la primera variable. El algoritmo converge en nueve iteraciones. 
Se ha ahadido una columna adicional , ss\, varianza de la primera variable, para ilustrar las 
estim.aciones que se obtendrian si en lugar de utilizar el algoritmo EM utlizamos el meto- 
do m.as simple de modificar el paso E sustituyendo cada observacion faltante por su media 
condicionada e iterando despues. Se observa que este segundo procedimiento al no tener en 
cuenta toda la incertidumbre subestima las varianzas: la varianza con este metodo es siempre 
menor que la estimada por el algoritmo EM. 

11.3 ESTIMACION ROBUSTA 

La estimacion MV depende de la hipotesis de normalidad en los dat-os. Esta es una hipotesis 
fuerte, y difi'cil de comprobar con muestras de tamano mediano. En particular, la estimacion 
MV de los parametros suponiendo normalidad puede ser muy mala cuando los dat-os proven- 
gan de distribuciones con colas pesadas, que pueden generar valores at-fpicos. Supongamos 
por ejemplo que los dat-os provienen de una normal contaminada 

7r 1 V 1 (/x,V) + (l-7r 1 )V 2 (//,cV) 

donde la mayorfa de los dat-os, por ejemplo, = .95, se hab generado con la distribution 
central, iVi(/x, V), pero una pequena proportion (1 — ?ri) , por ejemplo el 5%, provienen de la 
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distribution alternativa, que tiene mayor variabilidad, tant-o mas cuanto mayor sea c, que es 
siempre mayor que uno de manera que los element-os generados por ella pueden ser ati'picos 
y estar mucho mas alejados del centro que los de la primera. 

Hemos vist-o eu la secciou 11.2 , estimation de mezclas, que los estimadores MV de los 
parametros se calculan como: 




E n ^ 

i = 1 ZliXj 

E u ^ 

i = i z u 


y 



donde las variables zu son estimaciones de la probabilidad de que la observation provenga 
de la primera poblacion (el dat-o no sea atfpico). Los metodos robust-os parten de estas ecua- 
ciones pero eligen los pesos Zu que se aplican a las observations de manera que el estimador 
resultante t-enga buenas propiedades de robustez ante un conjunto amplio de distribuciones 
contaminantes, no necesariamente normales. Maronna (1976) propuso estimar it-erat-iva- 
ment-e los parametros de la normal multivariante con estas ecuaciones pero sustit-uyendo los 
zu por pesos uij (Dj) convenient-ement-e elegidos en funcion de la distancia de Mahalanobis 
del punto al centro de los dat-os. Por ejemplo, WjiL),) se toma igual a uno si la distancia 
es menor que uua cierta constant-e y tiene a cero cuando la distancia crece. El proceso es 
it-erat-ivo y recuerda el algoritmo EM. Se part-e de una estimation inicial de los parametros, 
con ella se calculan las dist-ancias de Mahalanobis y los pesos w^Dj). Con estas estimaciones 
se reestiman los parametros con los nuevos pesos, lo que conducira a uuevas dist-ancias de 
Mahalanobis, que determinaran nuevos pesos y asf sucesivament-e. Est-e metodo de modihcar 
las ecuaciones de verosimilitud mediant-e pesos se conoce como M-est-imacidn. 

Aunque este procedimiento es atract-ivo, no funciona bien en dimensions alt-as. Puede 
demost-rarse que el punto de ruptura de un M-est-imador como el que hemos present-ado, que 
descuenta las observations ext-remas, es, como maxim 1 / (p -\ 1). Est-a propiedad implica 
que en alt-a dimension es necesario buscar un enfoque alternativo a los estimadores clasicos 
robust-os. Hay dos enfoques al problema. El primero, buscar un estimador que se base solo 
en una fraction de los dat-os, presumiblemente no contaminados. El segundo es eliminar los 
ati'picos, y construir el estimador a partir de los dat-os limpios de ati'picos. 

Con el primer enfoque un procedimiento simple es el introducido por Rousseeuw (1985), 
que propone calcular el elipsoide de mi'nimo volumen, o de mfnim o determinante, que engloba 
al mens el 50% de los dat-os. La justification intuitiva del metodo es la siguiente. Los dat-os 
ati'picos est-aran en los extremos de la distribution, por lo que podemos buscar una zona 
de alta concentration de punt-os y determinar con ellos el centro de los dat-os y la matriz 
de covarianzas, ya que los punt-os de esa zona seran presumiblemente puntos buenos. Para 
encontrar ese niicleo central con alt-a densidad de dat-os, exigimos que el ellipsoide que cubre 
al mens el 50% de los dat-os tenga volumen mi'nimo. Est-a idea es una generalization de los 
result-ados univariantes, donde se obtienen estimadores muy robust-os a partir de la idea de 
mediana. Por ejemplo, la mediana es una medida de centralization que se ve poco afectada 
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por una alt-a contamination de los datos. Analogamente, para dispersion podemos utilizar 
la meda, o mediana de las desviaciones de los datos respcto a la mediana, que tiene tambien 
buenas propiedades. Generalizando estas ideas, podemos buscar el centra de la distribution 
de los datos multivariantes y su variabilidad construyendo el intervalo mi'nimo alrededor de un 
punto central que englobe el 50% de los datos. El centra de este intervalo sera una estimation 
de la media y la matriz de covarianzas est.imada en este intervalo, convenientemente escalada, 
estimara la matriz de varianzas de la problacion. 

Para obtener este intervalo, el proceso se implementa como sigue. Tomamos una muestra 
minima de tamafio p + 1 y calculamos su media, x : 1 -* , y su matriz de covarianzas, V ' 1 A esta 
muestra se la llama minima, porque tiene el numero exacto de elementos que necesitamos 
para calcular un valor del vector de medias y de la matriz de covarianzas, donde suponemos 
que la matriz de covarianzas estimada resulta no singular (en otro caso se tomaria otra 
muestra minima). A continuation, calculamos las distancias de Mahalanobis al centro de 
esta muestra minima para todos los puntos de la muestra completa de n puntos: 

A = (x i -x< 1 ) ) , V ( 1 ) - 1 (x i -x< 1 )), 


y tomamos la mediana, m^\ de estas n distancias. Entonces, por construccion, el elipsoide 
definido por (x — x (i) ) / V ( ^ 1 ^ 1 (x — x^) < contiene el 50% de los datos, o, lo que es 
equivalente, el elipsoide definido por (x — x^) / (m ( ' 1 )V ( U)~ 1 (x — x^) < 1 contiene el 50% de 
los datos. El volumen de un elipsoide de este tipo es proportional a 


m (1) V (1) 


1/2 



1/2 


(11.14) 


El procedimiento de calcular el elipsoide de volumen minimo que engloba el 50% de los datos 
es tomar N muestras minimas, obt-eniendo centres, x M) , .... x'- v b matrices de covarianzas, 
VW, ..., V (iv ), y medianas, ..., mS N \ y calcular en cada muestra minima el volumen 
(11.14). La muestra minima que proporcione un menor valor del criterio (11.14) se utiliza 
para calcular los estimadores robustos como sigue. Supongamos que la muestra de volumen 
minimo es la muestra J. Entonces, el estimador robusto de la media de los datos es x ( J \ y 
la estimation de la matriz de covarianzas expande para que corresponda a una 

estimation de la matriz en la poblacion. Como la distancia de Mahalanobis con respecto al 
centro de la problacion con la matriz de la poblacion es una x'p ■ tenemos que, para muestras 
grandes (x — x (J - ) ) / (m ( ' , 7 ^V ( ' / ^)” 1 (x — x (J ^) que contiene el 50% de los datos debe ser proximo a 
la mediana de la Xp, que represent aremos por Xp. 50 - Una estimation consistente de la matriz 
de covarianzas para datos normales es 

V = (Xp. H ,)" 1 m (J) V (J) . 

Un procedimiento alternativo, mas rapido y eficiente que el metodo anterior, ha sido prop- 
uesto por Pena y Prieto (2001) basado en las ideas de proyecciones expuestas en el capitulo 
3. El metodo consiste en tres etapas. En la primera se identifican los posibles atipicos como 
datos extremos de las proyecciones de la muestra sobre las direcciones que maximizan o 
minimizan la kurtosis de los puntos proyectados. En segundo lugar, se eliminan todos los 
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ati'picos potenciales o puntos sospechosos, y llamando U al conjunto de observaciones no 
sospechosas, la estimation incial robusta de los parametros se realiza con: 

* = 

1 1 ieu 
I I ieu 

En tercer lugar, utilizando estos estimadores robustos se contrastan una por nna las obser- 
vaciones sospechosas para ver si son ati'picas. Como vimos en la section 10.8 el contrasts 
utiliza la distancia de Mahalanobis: 

Vi = (x^-m ) 7 S - 1 (x.-m), Vi ^ U. 

y aquellas observaciones i U tales que Vi < Tq 99 (p, n — 1), donde Tq 99 (p, n— 1) es el percentil 
.99 de la distribution de Hotelling las consideramos como aceptables y las incluimos en U. 
Cuando una nueva observation se incluye en U los parametros se recalculan y el proceso se 
repite liasta que no se encuentran nuevas observaciones. Finalmente, una vez contrastados 
todos los puntos se estiman los parametros utilizando los elementos que no se han considerado 
ati'picos, y estos seran los estimadores robustos finales. 

Este met-odo se basa en los resultados de la section 4.5 donde justificamos que los ati'picos 
aislados van a identificarse buscando la direction de maxima kurtosis y los grupos numerosos 
de ati'picos van a aparecer en las direcciones de minima kurtosis asociada a distribuciones 
bimodales. 


11.4 ESTIMACION BAYESIAN A 

11.4.1 Concepto 

En el enfoque bayesiano un parametro es una variable aleatoria y la inferencia respecto a 
sus posibles valores se obtiene aplicando el calculo de probabilidades (teorema de Bayes) 
para obtener la distribution del parametro condicionada a la information disponible. Si 
se desea un estimador puntual, se tomara la media o la moda de dicha distribucion; si se 
desea un intervalo de confianza, se tomara la zona que encierre una probabilidad fijada en 
dicha distribucion. En consecuencia, una vez obtenida la distribution de probabilidad del 
parametro, los problemas habituales de inferencia quedan resueltos con la distribucion a 
posteriori de manera automatica y simple. 

El enfoque bayesiano tiene dos ventajas principals. La primera es su generalidad y co- 
herencia: concept ualment-e todos los problemas de estimation se resuelven con los principios 
del calculo de probabilidades. La segunda es la capacidad de incorporar information a priori 
con respecto al parametro adicional a la muestral. Esta fortaleza es, sin embargo, tambien 
su debilidad, porque exige siempre representar la information inicial respecto al vector de 
parametros mediante una distribucion inicial o a priori, p{0). Este es el aspecto mas con- 
trovertido del metodo, ya que algunos cienti'ficos rechazan que la information inicial -que 
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puede incluir los prejuicios del investigador- se incluya en un proceso de inferencia cienti'fica. 
En principio esto podrfa evitarse estableciendo una distribucion neutra, de referenda o no 
informativa para el problema, pero, aunque esto es fact-ible en casos simples, puede ser en si 
mismo un problema complejo en el caso multivariante, como veremos a continuacion. 

La distribucion final o a posteriori se obt-iene mediant-e el teorema de Bayes. Si llamamos 
X a la matriz de datos, con distribucion conjunta /(X|0), que proporciona las probabilidades 
de los valores muestrales conocido el vector de parametros, la distribucion a posteriori p(9 |X) 
sera: 


p(»\X) 


/pqgMg) 

j f(x\e)p(e)d(ey 


(U-15) 


El denominador de esta expresion puede escribirse como m(X) la distribucion marginal 
de los datos. Esta distribucion se denomina distribucion predictiva y se obt-iene ponderando 
las distribuciones /(X|0) para cada posible valor del parametro por las probabilidades que 
la distribucion a priori asigna a est-os valores. 

En la practica, el calculo de (11.15) se simplifica observando que el denominador no 
depende de 9. y actiia unicament-e como una constant-e normalizadora para que la integral 
de p{9 |X) sea la unidad. Por tanto, podemos calcular la distribucion posterior escribiendo: 


p{0 |X) = kt(e\X)p{0), 


(11.16) 


ya que, dada la muestra, X es constant-e y al considerar /(X|0) como funcion de 9 se conviert-e 
en la funcion de verosimilitud i{9 |x). Multiplicando para cada valor de 6 las ordenadas de 
£(0 |X) y pi 9) resulta la distribucion posterior. Para la forma de la posterior la const-ant-e k 
es irrelevante, y siempre puede determinarse al final con la condicion de que p(G |X) sea una 
funcion de densidad e integre a uno. Esta regia se resume en: 

Posterior oc Prior x Verosimilitud 

donde oc indica proporcional. La distribucion a posteriori es un compromiso ent-re la prior y 
la verosimilitud. Cuando pi 9) es aproximadamente const-ant-e sobre el rango de valores en los 
que la verosimilitud no es nula, diremos que p(9) es localment-e uniforme o no informativa, 
y la posterior vendra determinada por la funcion de verosimilitud. 

Una ventaja adicional del enfoque bayesiano es su facilidad para procesar informacion 
secuencialment-e. Supongamos que despues de calcular (11.16) observamos una nueva mues- 
tra de la misma poblacion Y, independiente de la primera. Entonces, la distribucion inicial 
sera ahora p(9 |X) y la distribucion final sera : 


p(0|XY) = M(9\Y)p(9\X). 


Naturalmente este mismo result-ado se obtendrfa considerando una muestra ampliada 
(X, Y) y aplicando el teorema de Bayes sobre dicha muestra, ya que por la independencia 
de X e Y: 


p(0|XY) = k£(9\XY)p(9) = k£(9\X)p(9\Y)p(9) 

La estimacion bayesiana proporciona est-imadores (la media de la distribucion a posteriori) 
que son admisibles con criterios clasicos. 
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11.4.2 Distribuciones a priori 

Una manera simple de introducir la informacion a priori en el analisis es utilizar distribuciones 
a priori conjugadas, que se combinan con la verosimilitud para producir distribuciones a 
posteriori simples, como veremos en la seccion siguiente. 

Si no se dispone de informacion a priori, o se desea que los datos hablen por sf mismos, se 
debe establecer una distribution a priori no informativa o de referencia. Intuitivamente, una 
distribution a priori no informativa para un vector de parametros de localizacion es aquella 
que es localmente uniforme sobre la zona relevant-e del espacio parametrico, y escribiremos 
p (6) = c. Sin embargo, est-a eleccion tiene el problema de que si el vector de parametros 

/ OO 

p(0)d0 = (X), y la prior no puede interpretarse como una 

-OO 

distribucion de probabilidad, sino como una herramienta para calcular la posterior. En efecto, 
si podemos suponer que a priori un parametro escalar debe estar en el intervalo {—h. hi). 
donde h puede ser muy grande pero es un valor fijo, la distribucion a priori p(O') = 1/2 h es 
propia, ya que int-egra a uno. La distribucion p (0) = c debe pues considerarse como una 
herramienta simple para obtener la posterior. Estas distribuciones se denominan impropias. 
En problemas simples trabajar con distribuciones a priori impropias no produce problemas, 
(aunque puede dar lugar a paradojas, vease por ejemplo Bernardo y Smith, 1994), pero en 
situaciones un poco mas complicadas la distribucion a posteriori correspondiente puede no 
existir. 

Las distribuciones const-antes estan sujetas a una dificult-ad conceptual adicional: si 
suponemos que la distribucion a priori para un parametro escalar 0 es del tipo p(0) = c 
y hacemos una transformation uno a uno del parametro <p = g {()), como 

p(<p) = p(Q) 

si la distribution es constante para el parametro 0. no puede ser constants para el parametro 
ip. Por ejemplo, si p[6) = c, y <p — 1/9, entonces \d6/dp\ = ip~ 2 y p(ip) = c<p -2 , que no es 
uniforme. Nos encontramos con la paradoja de que si no sabemos nada sobre 0 y 0 > 0, 
no podemos decir que no sabemos nada (en el sentido de una distribution uniforme) sobre 
log# 0 O 2 . Una solucion es utilizar las propiedades de invarianza del problema para elegir que 
transformation del parametro es razonable suponer con distribution constante, pero aunque 
esto suele ser claro en casos simples (para las medias y para los logartimos de las varianzas) 
, no es inmediato como hacerlo para parametros mas complejos. 

Jeffreys (1961), Box y Tiao (1973), Bernardo (1979) y Bernardo y Smith (1994), entre 
otros, han estudiado el problema de establecer distribuciones de referencia con propiedades 
razonables. Para distribuciones normales, y para los casos simples considerados en este 
libro, la distribution de referencia para un vector de parametros de localizacion podemos 
tomarla como localmente uniforme y suponer que en la zona relevant-e para la inferencia 
p (6) = c. Para matrices de covarianza, Jeffreys, por consideraciones de invarianza ante 
transformaciones, propuso t-omar la distribution de referencia proportional al determinante 
de la matriz de covarianzas elevado a —(p + l)/2, donde p es la dimension de la matriz. 

Senalaremos por ultimo que el problema de la distribution a priori, aunque de gran 
importancia conceptual, no es tan crucial en la pract-ica como puede parecer a primera vista 
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ya que : 

(1) Si tenemos muchos datos, la verosimilitud sera muy apuntada, y la posterior ven- 
dra determinada por la verosimilitud, ya que entonces cualquier priori razonable sera casi 
constants sobre la zona relevante para la inferencia. 

(2) Si tenemos poca informacion muestral, cualquier procedimiento estadfstico va a ser 
muy sensible a las hipotesis que hagamos sobre el modelo de distribucion de probabilidad, 
que van a afectar tanto o mas que la prior al analisis. Sin embargo, estas hipotesis no 
podremos comprobarlas con eficacia con muestras pequenas. Conviene en estos casos, sea 
cual sea la prior elegida, estudiar la sensibilidad de la solucion a cambios en el modelo y en 
la prior. 


11.4.3 Calculo de la Posterior 

Distribuciones Conjugadas 

El calculo de la distribucion posterior puede ser complicado y requerir metodos numericos. 
El problema se simplifica si podemos expresar aproximadamente nuestra informacion a pri- 
ori con una distribucion que simplifique el analisis. Una familia de distribuciones a priori 
adecuada para est-e objet-ivo es aquella con la misma forma que la verosimilitud, de manera 
que la posterior pueda calcularse facilmente y pertenezca a la misma familia que la priori. 
A estas familias se las denomina conjugadas. 

Una clase C, de distribuciones a priori para un parametro vectorial, 0, es conjugada, si 
cuando la prior pertenece a esa clase, p(0) G C, entonces la posterior tambien pertence a la 
clase, p(0\X) e C. La distribucion conjugada puede elegirse tomando la distribucion a priori 
con la forma de la verosimilitud. Por ejemplo, supongamos que queremos hacer inferencia 
respecto al parametro 9 en un modelo de la familia exponencial 


f(x\0) = g(X)h(6) exp {t(X)g(6)} . 
La verosimilitud de la muestra sera 

l(6\X) = k x h(6) n ex p {</(0) 
y podemos tomar como familia conjugada : 

p{6) = k x h{0y exp {g(0)m} , 


con lo que se obt-iene imnediatament-e la posterior: 


p{9 \X) = kx h(6Y +n ex p 


\m 


+ ^ t( y X ) } • 


En la seccion siguiente veremos ejemplos de su utilizacion para estimar los parametros de 
una normal multivariante. 
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Metodos de Monte Carlo con Cadenas de Markov (MC 2 ) 

Cuando no sea posible utilizar una distribution a priori conjugada y el calculo de la posterior 
sea complejo, podemos utilizar el ordenador para general - muestras de la distribution poste- 
rior. Existe una variedad de metodos para realizar esta simulation, que se conocen bajo el 
nombre comun de metodos de Monte Carlo con Cadenas de Markov (o metodos MC 2 ) y el 
lector interesado puede acudir a Robert y Casella(1999) , Carlin y Louis (1996) y Gaberman 
(1997). En este libro solo presentaremos uno de est-os metodos, el muestreo de Gibbs o 
Gibbs sampling, que es especialmente util para la estimation de las distributions mezcladas 
consideradas en el capi'tulo 14. 

El muestro de Gibbs es apropiado para obtener muestras de una distribution conjunta 
cuando es facil muestrear de las distributions condicionadas. Supongamos que estamos in- 
teresados en obtener muestras de la distribution conjunta de dos variables aleatorias, f(x, y ), 
y supongamos que conocemos las distributions condicionadas f(x/y), y f(y/x). Este meto- 
do se implements como sign : 

1. Fijar un valor arbitrario initial v/ 0) y obtener un valor al azar para x de la distribution 
f(x/y ). Sea x^ este valor. 

2. Obtener un valor al azar para y de la distribution f(y/x ®). Sea y li> este valor. 

3. Volver a 1 con i/ ]> en lugar de y !0) y alternar entre 1 y 2 para obtener parejas de 
valores {x^ l \y (*) ), para i = 1, ..., N. 

Se demuestra que, para N suficientemente grande, la pareja (x^ N \y^ ) es un valor al 
azar de la distribution conjunta f(x,y). 

Un problema important^ es investigar la convergencia de la secuencia. Puede demost-rarse 
que, bajo ciertas conditions generales, el algoritmo converge, pero la convergencia puede 
requerir un m'nnero enorme de iterations en algunos problems (vease por ejemplo Justel y 
Pena, 1996). 

11.4.4 Estimacion Bayesiana de referencia en el modelo normal 

Supongamos que se desea estimar los parametros de una normal multivariante sin introducir 
information a priori. Es mas simple tomar como parametros /x, V -1 , donde V 1 es la 
matriz de precision. La estimacion de referencia para este problema supone que, a priori, 
p(/z, V -1 ) = p(/x)p(V _1 ), donde p(/x) es constante en la region donde la verosimilitud es no 
nula y p(V _1 ) se elige como no informativa en el sentido de Jeffreys. Puede demostrarse 
que, entonces, una prior conveniente es proportional a |V _1 | coll } (J q Ue } a prior 

resultant.e es 


p^V^ 1 ) oc |V| 1/2(p+1) . (11.17) 

La expresion de la verosimilitud es, segun lo expuesto en la section 10.2.2, y expresandola 
ahora en fi i n cion de V” 1 


/(X| M . V- 1 ) = ClV-'l^exp , 


(H- 18 ) 
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y multiplicando estas dos ecuaciones, (11.17) y (11.18), resulta la posterior 

p(/x, V _1 |X) = C'i|V _1 | (n ' p ‘ 1)/2 exp |-^rV _1 S(/n)n| , (11.19) 

donde C\ es la constant.e necesaria para que la densidad integre a uno. Observemos que si 
el objet.ivo es obtener la moda de la posterior no necesitamos calcular esta constant.e. 

La marginal de /x se obt.iene integrando respecto a V. Para ello, observamos que en esta 
integration la matriz S(/x) es una constante, ya que no depende de V, y la fruition a integral 
es similar a la distribution Wishart, siendo ahora V " 1 la variable, en lugar de W, n = m, 
y S(/x)n igual a la matriz de constant.es E. El termino que falt-a para t.ener la distribution 
complet.a es |E| m ^ 2 , que equivale a |S(/x)n| n ^ 2 . Introduciendo est.a constant.e, multiplicando 
y dividiendo para complet.ar la integral y prescindiendo de constant.es, obtenemos que la 
posterior sera 


p(/x|X)(x|S(/x)r / 2 (11.20) 

y, se demuestra en el Apendice 11.2, que est.e determinante puede escribirse como 

p(/x|X) oc |1 + (x - /x) / S _1 (x - /x)| n/2 

Est.a expresion indica que la densidad marginal del vector de medias es una t multivariante 
con n — p grados de libertad (vease la section 9.6.2). La moda de la densidad se alcanza para 
/x = x, resultado analogo al obt.enido por MV. De la forma de la densidad (11.20) concluimos 
que este valor de /x minimiza el determinante de la matriz de sumas de cuadrados S(/x). Est.e 
criterio, minimizar el determinante de las sumas de cuadrados residuales, suele llamarse de 
mi'nimos cuadrados multivariante. 

La posterior de V se obt.iene int-egrando (11.19) con respecto a /x. Se demuestra en 
el Apendice 11.2 que la distribution a posteriori para V 1 es una distribution Wishart 
W p (n — 1 , S 1 /n ) . Puede comprobarse que la media de la distribution a posteriori de V es 
nS/ (n — p — 2), por lo que si tomamos est.e valor como est.imador de V obtendremos un valor 
distinto que con el met.odo MV. 

11.4.5 Estimacion con informacion a priori 

Supongamos que disponemos de information a priori para estimar los parametros de una 
distribution A),(/x. V). La forma de la verosimilitud (11.18) sugiere (vease el apendice 11.2.) 
las siguientes distributions a priori. Para /x dada V” 1 estableceremos que 

p(/x|V _1 ) ~ Ap(/x 0 , V|n 0 ), 

y esta distribucion indica que, conocida V, la mejor estimation a priori que podemos dar 
del valor de /x es /x 0 , y la incertidumbre que asignamos a esta estimation a priori es V|n 0 . 
En principio podrfamos reflejar nuestra incertidumbre respecto /x con cualquier matriz de 
covarianzas, pero el analisis se simplifica si suponemos que esta incertidumbre es una fraction 
de la incertidumbre del muestreo. Observemos que esta es la distribution a priori para /x 
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condicionada a V, por lo que tiene sentido expresar la incertidumbre en funcion de la varianza 
muestral. Una vez que hayamos visto el papel que juega el parametro no comentaremos como 
fijarlo. Para la matriz de precision estableceremos que: 

^(V- 1 ) ~W p (m 0 ,M\m 0 ) 

que escribimos de esta forma para que los parametros tengan una interpretacibn mas sencilla. 
Asf, a priori, el valor esperado de la matriz de precision es M, y, como veremos, el parametro 
m 0 controla la precision que queremos dar a esta estimacion inicial. Ut.ilizando estas dos 
distribuciones, la distribution a priori conjunta resultante es 


P(M,V 1 )=p(/i|V ^(V x ). 

El apendice 11.2. calcula la distribution a posteriori mediante 

p(m,V|X) oc£(X|p,V)p(/i,V) 

y all! se obtiene que, a posteriori, la distribution de la media condicionada a la varianza es 
tambien normal: 


p(/ i |V _1 ,X) ~ Np(fi p ,V p ) 

donde la media a posteriori, que puede tomarse como el estimador bayesiano de /i, es: 

_ noMo + nx 
AA I 

y n 0 + n 

y la incertidumbre en esta estimacion es 


n 0 + n 

La media a posteriori es una media ponderada de la information a priori y la proporcionada 
por la muestra, y los coeficientes de ponderacion son no y n. El parametro no representa 
pues el peso que queremos dar a nuestra estimation prior con relation a la muestral. Vemos 
tambien que la incertidumbre asociada equivale a la de una muestra de tamano n 0 + n. 
Podemos interpretar no como el numero de observaciones equivalentes que asignamos a la 
information contenida en la prior. Por ejemplo, si no = 10 y tomamos una muestra de 
tamano 90, queremos que nuestra prior tenga un peso del 10% en el calculo de la posterior. 
La distribution a posteriori de la matriz de precision es 

p(V _1 |X) ~ Wp{n + to 0 , M p ), 

donde la matriz de la Wishart es 

1 = m 0 M _1 + nSH — (x - /x 0 )(x - /z 0 )'. 

F n + n 0 
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Para interpretar est-e result-ado, recordemos que la media de una distribucion de Wishart 
W p (n + mo,M p ) es 


£(V -1 |X) = 


m 0 


n + m 0 


-M _1 + 


n 


-Sd 


nno 


n + m 0 ( n + n 0 ) 2 


(x-/x 0 )( x -/x 0 )' 


el termino entre parent-esis juega el papel de la matriz de varianzas y vemos que suma tres 
fuentes de incertidumbre: las dos que vienen de la distribucion prior y la muestral. El primer 
termino es la matriz de covarianzas a priori, el segundo la matriz de covarianzas muestral 
y el tercero el incremento de covarianzas debido a la discordancia entre la media a priori 
y la muestral. El termino mo controla el peso que queremos dar a la estimation prior de 
la varianza, frent-e a la varianza muestral, y el termino no el peso de la discrepancia entre 
la media a prioiri y la estimada. Observemos tambien que si la information proporcionada 
por la muestra es grande con relation a la prior, es decir, n es grande con relation a m 0 y 
no, de manera que m-o/n y no/ n sean pequenos, la esperanza de la precision posterior es, 
aproximadamente, la precision muestral, S 1 . 


11.5 CONTRASTES BAYESIANOS 

11.5.1 Conceptos basicos 

En el enfoque bayesiano, la hipotesis nula no se acept-a o rechaza, como en el enfoque clasico, 
sino que se determina su probabilidad a posteriori dados los datos. Supongamos el contraste 
general considerado en el capi'tulo anterior: dado un parametro vectorial, 6, p— dimensional, 
que t-oma valores en 14 se desea contrastar la hipotesis: 

Hq : 6 G 14q, 


frent-e a la hipotesis alt-ernat-iva 


H x : 6 e 14 - 14 0 


Suponemos que exist-en probabilidades a priori para cada una de las dos hipotesis. Estas 
probabilidades quedan automaticamente determinadas si est-ablecemos una distribucion a 
priori sobre 0. ya que entonces: 


Po = P{H 0 ) = P{6 e 14 0 ) = f P (6)dG 


y 


Pi = P(H i) = P{0 e 14 - 14 0 ) = [ p(O)d0. 

J n — n 0 

Las probabilidades a posteriori de las hipotesis las calcularemos mediant-e el teorema de 
Bayes 


P(Hi |X) 


ppm)pm 

P(X) 


i = 0,1 
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logio Box 

B m 

P(H 0 ) para (p 0 /pi = 1) 

Interpretacion. 

0 

1 

0,5 

indecision 

-1 

o 

1 

0,1 

debil rechazo de H 0 

-2 

10~ 2 

0,01 

rechazo de H 0 

-3 

10-' d 

0,001 

rechazo sin duda de H 0 


Tabla 11.3: Interpretation del factor de Bayes segun Jefreys 


y de aqui' se obtiene el resultado fundamental: 

P(H 0 IX) f(X\H 0 ) P(H 0 ) 

P(Hi\X) /(X| H.ypiH,) 


( 11 . 21 ) 


que puede expresarse como 

Ratio de posteriores = R.Verosimilitudes x R. Prioris 

Esta expresion indica que la evidencia respecto a la hipotesis nula se obtiene multiplicando 
la evidencia proporcionada por los dat.os, con la evidencia a priori. A1 cociente entre 
las verosimilitudes se denomina factor de Bayes, B. y si las probabilidades a prioiri de 
ambas hipotesis son las mismas, determina las probabilidades a posteriori de las hipotesis. 
Expresando las probabilidades a posteriori en terminos del parametro, se obtiene 


P{Hi |X) = P{0 e a/X) 


p(d\X)dO 


i = 0,1 


donde Hi = — Ho, y p(0 |X) es la distribution a posteriori para el vector de parametros de 

interes dada por (11.15). Por tanto 


p(Ht |X) 


/(X) 


f(X\0)p(0)d0 


0,1 


donde Ox = Q — O 0 . Sustituyendo en (11.21) se obtiene que el factor de Bayes de la primera 
hipotesis respecto a la segunda, B 01 , es 


Pl /„ 0 m\e)p(»)de 
rnj~jmme)de 


Jeffreys ha dado la escala de evidencia para el factor de Bayes que se presenta en la 
Tabla 11.3. La primera columna presenta el factor de Bayes en una escala logaritmica, la 
segunda el factor de Bayes, la tercera la probabilidad de la hipotesis nula supuesto que las 
probabilidades a priori para las dos hipotesis son las mismas. La ultima columna propone 
la decision a tomar respecto a H 0 . 
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11.5.2 Comparacion entre los contraste bayesianos y los clasicos 

Si suponemos que, a priori, las probabilidades de ambas hipotesis son las mismas, el factor 
de Bayes es comparable al ratio del contraste de verosimilitudes, pero exist-e una diferencia 
fundamental: en el constraste de verosimilitudes se t-oma el maximo de la verosimilitud, 
mientras que en el enfoque bayesiano se toma el promedio sobre la region relevante, pro- 
mediando con la distribution a priori. Por tanto, el contraste t-iene en cuenta al calcular la 
integral el tamano del espacio definido por 1 1 (J y por lb ■ Por ejemplo, supongamos que G es 
un parametro escalar 0 < 6 < 1 y que contrastamos: 

H 0 :9 = 9 0 


frente a 


H, : 9 ± 00- 

Para que las probabilidades a priori de ambas hipotesis sean las mismas, supongamos que 
fijamos p{9 = 9 0 ) = 1/2 y que p{9) = 1/2 si 9 ^ 0 O . Entonces, el factor de Bayes compara 
/(X|0 O ) con el valor promedio de la verosimilitud cuando 9 ^ 0 O , mientras que el contraste de 
verosimilitudes compara / (X 1 0 (J ) con el valor maximo de la verosimilitud. Si el valor 9 = 9 o 
no es exact-ament-e cierto, sino solo aproximadamente cierto, y el tamano de la muestra es 
muy grande: 

1. Con el enfoque bayesiano, los valores alejados de 9 0 tendran una verosimilitud muy 
pequeiia con muestras grandes y al promediar sobre todos los valores se tendera a favorecer 
a H 0 . Al aumentar n puede hacer muy difi'cil rechazar // (l . 

2. Con el enfoque clasico, comparamos /(X|0 O ) con /(X|0 M y), donde 9 MV es el esti- 
mador MV que est-ara proximo al verdadero valor para muestras grandes, y est-a diferencia 
aumentara con el tamano muestral, por lo que terminaremos siempre rechazando Ho. 

En resumen, con el enfoque clasico, cuando n oc se rechaza H 0 en la pract-ica, mientras 
que con el enfoque bayesiano cuando n - ^ oc es mas difi'cil rechazar H 0 en la practica. Est-o 
es consecuencia de que el enfoque bayesiano t-iene en cuenta la verosimilitud de H 0 y de H \ , 
mientras que el enfoque clasico mira solo a H 0 . 

Es important-e senalar que esta contradiction desaparece en el moment-o en que refor- 
mulamos el problema como uno de estimation. Entonces ambos met-odos coincidiran con 
muestras grandes en la estimation del parametro. 


11.6 Seleccion de Modelos 

11.6.1 El Criterio de Akaike 

El met-odo de maxima verosimilitud supone que la forma del modelo es conocida y solo falta 
estimar los parametros. Cuando no es asf debe aplicarse con cuidado. Por ejemplo, supong- 
amos que se desea estimar un vector de parametros 6 = (9 ly ...9 p )' y admitimos en lugar de un 
modelo unico la secuencia de modelos Mi = (0 1; 0, ..., 0), ...., M* = (0 1; ..., 0*, 0, ..,0), ...,M P = 
(0!,...,0 P ), es decir el modelo Mj (i = l.....p) indica que los primeros i parametros son 
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distintos de cero y los restantes cero. Es claro que si estimamos los parametros bajo cada 
modelo y calculamos el valor maximo del soporte sustituyendo los parametros por sus esti- 
maciones MV, el modelo con mayor soporte de los datos sera el modelo M p con todos los 
parametros libres. Este result-ado es general: el met-odo de maxima verosimilitud siempre da 
mayor soporte al modelo con mas parametros, ya que la verosimilud solo puedo aumentar si 
introduzco mas parametros para explicar los datos. 

Esta limit-acion del met-odo de maxima verosimilitud fue percibida por Fisher, que propuso 
el met-odo en 1936 para estimar los parametros de un modelo, indicando sus limitaciones para 
comparar modelos distint-os. La solucidn habitula para seleccionar entre los modelos es hacer 
un cont-raste de hipotesis ut-ilizando el contrast-e de verosimilitudes y elegiendo el modelo 
frent-e al M p mediante 


A = 2 (L(M P ) - L(Mi)) = D(Mi) - D(M P ) 

donde L(M P ) es el soporte del modelo M p al sustituir en el funcion soporte el parametro 6 
por su est-imacion MV y I AM,) el soporte del modelo Mi al estimar los parametros con la 
restriccion 9 i+1 = .. — 9 P — 0, y D(M 3 ) = —2 L(M 3 ) es al desviacion. Suponiendo que el 
modelo mas simple, M,, es correcto, el estadi'st-ico A se distribuye como una y 2 con p — i 
grados de libert-ad. 

Akaike propuso un enfoque alt-ernat-ivo para resolver el problema de seleccionar el modelo 
suponiendo que el objet-ivo es hacer predicciones tan precisas como sea posible. Sea f(y\M t ) 
la densidad de una nueva observacion bajo el modelo Mi y sea /( y) la verdadera funcion 
de densidad que puede o no ser una de las consideradas, es decir, el modelo verdadero 
puede o no ser uno de los Mj Queremos seleccionar el modelo de manera que / (y | M, ) sea 
tan proxima como sea posible a /( y). Una manera razonable de medir la dist-ancia entre 
estas dos funciones de densidad es mediant-e la dist-ancia de Kullback-Leibler entre las dos 
densidades, que se calcula: 

KL(f(y\Mi),f(y)) = J log^^p/(y)dy (11.22) 

Para interpretar est-a medida observemos que la diferencia de logaritmos equivale, cuando 
los valores de ambas funciones son similares, a la diferencia relat-iva, ya que 

f(y\Mj) f(y\Mj) - /( y) _ /(y|Mf) - /( y) 

g /( y) 81 /( y) J /( y) 

y cuando las diferencias son grandes, el logaritmo es mejor medida de discrepancia que la 
diferencia relat-iva. Las discrepancias se promedian respecto a la verdadera distribucion de 
la observacion y la medida (11.22) puede demost-rarse que es siempre positiva. Una manera 
alternativa de escribir esta medida es 


KL(f(y\Mi),f(y)) = E p log/(y|M i ) -E y \ogf( y) 

donde E y indica obtener la esperanza bajo la verdadera distribucion de y. Como est-a 
cant-idad es siempre posit-iva, minimizaremos la dist-ancia entre la verdadera distribucion y 
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/(y|Mj) haciendo el primer termino lo mas pequeno posible. Puede demost.rarse que (Akaike, 
1985) que esto equivale a minimizar 

AIC = ~2L{Mi) + 2i = D(Mi) + 2i (11.23) 

es decir, minimizamos la suma de la desviacion del modelo, que disminuira si introducimos 
mas parametros, y el numero de parametros en el modelo, que t-iende a corregir por este 
efecto. 

11.6.2 El criterio BIC 

Una ventaja del enfoque bayesiano es que el problema de seleccion de modelos puede abor- 
darse con los mismos principios que el contraste de hipotesis. Supongamos que en un proble- 
ma estadfstico dudamos entre un conjunto de m modelos posibles para los datos observados 
Mi, . . . , M m . Si consideramos los modelos como posibles hipotesis sobre los datos, calculare- 
mos sus probabilidades a posteriori, M\ , . . . ,M m y seleccionaremos el modelo con maxima 
probabilidad a posteriori. Estas probabilidades vienen dadas por : 

P(Mj |X) = j — (11.24) 

donde P ( Mj ) es la probabilidad a priori del modelo j. Esta ecuacion indica como pasamos 
de la probabilidad a priori a la posteriori para cada modelo: se calcula las verosimilitud 
marginal de los datos para ese modelo, f (X.\Mj ) , donde el nombre marginal proviene de que 
esta funcibn no depende de los valores de los parametros, y se compara con la verosimilitud 
marginal promedio para todos los modelos, / (X). En efecto, llamemos 6j a los parametros 
del modelo Mj. La distribution / (X| Mj) viene dada por 


/(x|Mj) = J f(x\e j ,M j )p(e j \M j )de, 

= J L j (X\e,)p(0 j \M l )d0 j 

es decir, se obtiene promediando la verosimilitud del modelo, Lj (X|0) , por las probabilidades 
a priori de los parametros, p ( Oj\Mj ) . Por lo tanto, esta funcibn expresa la verosimilitud de 
los datos dado el modelo, sea cual sea el valor de los parametros, lo que justifica el nombre 
de verosimilitud marginal. El denominador de (11.24) es 

/(X) = £/(X \M j )P(M j ) 

y puede interpretarse como una media ponderada de las verosimilitudes marginales, siendo 
los coeficientes de la ponderacion las probabilidades a priori. 

La conclusion que se desprende de (11.24) es que seleccionar el modelo con mayor prob- 
abilidad a posteriori equivale a seleccionar el modelo donde el producto de la verosimilitud 
marginal / (X| Mj) y de la prior del modelo P ( Mj ) sea maxima. 
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Las expresiones anteriores se derivan de las reglas del calculo de probabilidades y son 
exactas. Es posible obtener una expresion aproximada de / (X| Mj) si suponemos que la 
distribution a posteriori del vector de parametros es asintoticamente normal multi variante. 
Supongamos que para el modelo j esta distribution a posteriori es : 

p(0i|X,M,) = (27r)-» /2 |5j| _1/2 exp |-l/2 (e j - 0,)' S~' (Oj - 0,) j 

donde p :) es la dimension del vector de parametros del modelo Mj , y 6j es el estimador MV 
de 6j y Sj la matriz de covarianzas de este estimador. Por el teorema de Bayes: 


p(e,/|x,JV) 


l j (0 1 \X)p(0j\M J ) 
/(x \Mj) 


donde lj («ilX) es la verosimilitud, p(0j\Mj) la probabilidad a priori para los parametros 
y f (K\Mj) la verosimilitud marginal. Esta expresion es cierta para cualquier valor del 
parametro y en particular para 9j = 9j. Tomando logaritmos y particularizando esta expre- 
sion para 9j, podemos escribir 


log/ (X\Mj) = Lj (fl/x) + logp 


~(Pj/ 2) log 2tt 


\ l °s\Sj 


(11.25) 


La matriz Sj de covarianzas del estimador de los parametros t-iene terminos habitualmente 
del tipo a/n. Escribiendo 



entonces \S 3 \ = n Pj \Rj\ y sustituyendo en (11.25): 

log / (X|Mj) = Lj (dj\x) + logp (Oj\M^j + y log2vr - ^ logn + ^ log | Rj\ . 

Vamos a aproximar esta expresion para n grande. Para ello vamos a mantener en esta 
expresion vinicamente los terminos que crecen con n y despreciar los que tomen un valor 
acotado que no crece con n. El primer termino es el valor del soporte en el maximo que es 
la suma de n terminos para las n observations y sera de or den n. El segundo es el valor 
de la prior y, para n grande, podemos suponer que va a ser aproximadamente constante con 
relation a la verosimilitud. El tercer termino, (pj/ 2) log27r es de orden constante. El cuarto 
crece con n y el ultimo, por construction, esta acotado. En consecuencia, para n grande 
podemos escribir: 


log / (X|Mj) ~ Lj (0/x) - | logn. 


Esta expresion fue obtenida por primera vez por Schwarz (1978), que propuso escoger 
el modelo que conduzca a un valor maximo de esta cant-idad. Una forma equivalents de 
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este criterio, llamada criterio BIC (Bayesian Information Criterion), es xalcular para cada 
modelo la cant-idad: 

BIC(Mj-) = -2 Lj (^|x) +pj\ogn 

y seleccionar aquel modelo para el cual esta cantidad es minima. De esta manera este criterio 
pondera la desviacion del modelo, medida por —2 Lj ^# 7 |xj , con el mimero de parametros. 
Si introducimos mas parametros en el modelo mejorara el ajuste, con lo que aumentara 
el soporte o disminuira la desviacion, y este efecto queda compensado por el aumento del 
mimero de parametros que aparece en p :j log n. 

11.6.3 Relacion entre el BIC y EL AIC 

La forma general de estos dos criterios de selection es 

D{Mj) +p j g(n) 

donde D(Mj ) es la desviacion del modelo medida por —2 Lj ^# 7 |xj , y p ? el mimero de 
parametros. La constant-e que multiplica al mimero de parametros es distinta en ambos 
criterios En el criterio BIC esta constant-e es log n, mientras que en el AIC es 2. Por tanto, 
el criterio BIC seleccionara modelos mas parsimoniosos, es decir, con menor mimero de 
parametros que el AIC. Otros autores ban propuesto ot-ros criterios que corresponden a 
distint-as funciones g(n) 

La diferencia entre estos criterios se explica por su distinto objet-ivo El criterio BIC 
trat-a de seleccionar el modelo correcto, con maxima probabilidad a posteriori, y puede 
demost-rarse que es un criterio consitent-e, de manera que la probabilidad de seleccionar el 
modelo correcto tiende a uno cuando crece el tamano muestral. El criterio AIC no pretende 
seleccionar el modelo correcto, ya que admit-e que este modelo verdadero puede no estar entre 
los estimados, y trat-a de obtener el modelo que proporcione mejores predicciones entre los 
existentes. Puede demost-rarse que, en condiciones generates de que el modelo verdadero 
puede aproximarse arbitariamente bien con los estimados al crecer el tamano muestral, el 
criterio AIC es eficiente, en el sent-ido de escoger el modelo que proporciona, en promedio, 
mejores predicciones. Sin embargo, en muestras pequenas o medianas, el criterio AIC tiende 
a seleccionar modelos con mas parametros de los necesarios. 

11.7 Lect liras complement arias 

Una buena introduction al algoritmo EM se encuentra en Tanner (1991) y con ejemplos 
multivariantes en Flury (1997). Versiones mas amplias se encuentran en Gelman et- al (1995) 
y Little y Rubin (1987). El libro de Schafer (1997) contiene numerosos ejemplos de su 
aplicacion con dat-os multivariantes. 

La estimation de mezclas se estudia con det-alle en Titterington at al (1987), y varios 
de los t-extos de cluster, que comentaremos en el capi'tulo 15, incluyen el estudio de es- 
t-as distribuciones. La estimation robust-a puede consultarse en Hampel at- al (1986) and 
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Rousseew and Leroy (1987). La estimation Bayesiana multivariante en Bernardo y Smith 
(1994), O’Hagan (1994) y Press (1989). Los algoritmos de cadenas de Markov (metodos 
MC 2 ) en Gamerman (1997), Carlin y Louis (1996) y Robert y Casella (1999). Los contrastes 
bayesianos en Berger (1985). La literatura de seleccion de modelos es muy amplia. Algunas 
referencias basicas son Akaike(1974), Miller (1990) y McQuarrie y Tsai (1998), Chow (1981) 
y Lanterman (2001). 

APENDICE 11.1. CONVERGENCE A DEL ALGORITMO EM 

Sea 


L* c {0 | 0 W ) 


E 


L c (0 |Y,Z)|0 (i) ,Y 


la funcion que maximizamos en el paso M del algoritmo. Vamos a demostrar que cuando 
0(i) = 0(i+ 1 ) = Qf entonces 


'3L(0\Y)~ 

30 


e=e F 


0 


y 0f es el estimador MV. Para ello observemos que 


LU6 |g w )= f log/(Z|Y,0)/(Z|Y,0 w )dZ+L(0|Y) 


y si maximizamos esta expresion derivando e igualando a cero se obtiene: 

3L* C (0 |0 W ) _ f df(Z\Y,0)f(Z\Y,0 ( i ) ) 


30 


30 /( Z\Y,0) 


-dZ+L'(0|Y) =0, 


con lo que tendremos que 0(i+i) verifica 


df( Z|Y,0) 

30 


J e 


(i+l) 


/( Z|Y,S (i+1) ) 


dZ+L'(0 (i+1) |Y) =0. 


Cuando 0(p = 0(i+i) = 0 f el primer miembro es cero, ya que se reduce a 

~df(Z\Y, 0) 


30 


dZ 


*(i+ 1) 


que es siempre cero, como se comprueba derivando en la ecuacion f f{Z |Y, 0)dZ =1. Por 
tanto tendra que verificarse que 

L' (da+i) |Y) =0 


que implica que 0(\+i) es el estimador MV. 

APENDICE 11.2: ESTIMACION BAYESIANA 
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Demostraremos primero que la distribution marginal a posteriori de V 1 con la prior de 
referencia es una Wishart invert-ida. Integrando en la conjunta 

p(V _1 |X) = f C'i|V _1 | ( ' ra_p_1)/2 exp ^trV _1 S(/x)n| d/x, 

y utilizando S(/x)n = nS + n(x — /x)(x — /x) 7 , podemos escribir 

p(V _1 |X) = C x iv-ijln-p-^exp |-^rV _1 ns| A 

donde 

A = / |V| _1/2 exp|-|(x-/x) , V _1 (x-/x)}d/x, 

que con las constantes adecuadas integra a uno. Por tanto, podemos concluir que la dis- 
tribution a posteriori para V 1 es una distribucion Wishart- W p (n — 1, S 1 /n). 

Obtendremos ahora las distribuciones en el caso de prioris informativas. La verosimilitud 
de los parametros de la normal tiene la forma del producto de una normal por una Wishart, 
con lo que la prior conjugada a est-e problema debe ser de la forma: 

p(/x, V” 1 ) (x |V- 1 |("*o-*0/2 exp {-(1/2) [trV _1 M _1 m 0 + n 0 (/x — /x 0 ) 7 V _1 (/x — /x 0 )] } . 

De acuerdo con esta distribution a priori, p(/z|V' ') es una normal multivariante con 
media /x 0 y varianza V|no, 

pO|V _1 ) oc | V — 1 1 1/2 exp {—1/2 [no(/z-/z 0 ) , V _1 (/z-/z 0 )]} 
mientras que p(V _1 ) sigue una distribucion Wishart W p (rn 0 ,M /m 0 ) 

^V’ 1 ) oc | V -1 1 (m ° _p_1)/2 exp { — (l/2)trV -1 M -1 m 0 } . 

La distribution posterior sera 

p(/z,V _1 |X) = C'|V' 1 | < ' n+m °~ p)/2 exp {—E/2} , 
donde el exponente, E. puede escribirse: 

E = tr(V _1 (M _1 m 0 + nS)) + n(x - /x)V _1 (x - /x) 7 + n 0 (/x - /x 0 ) 7 V _1 (/x - /x 0 ). 

Vamos a expresar de ot-ra forma las formas cuadrat-icas. Para ello utilizaremos el siguiente 
result-ado general: 

Lemma 2 Si A y B son matrices no singulares, se verified que 

(z — a) 7 A(z — a) + (z — b) 7 B(z — b) = (z — c) ; D(z — c) + (a — b) ; H(a — b) 
donde c = (A + B) _1 (Aa + Bb), D = (A + B) y H = (A -1 +B -1 ) -1 . Ademas se verified 

I A I i I B I i = |A + B|5|A -1 -|-B _1 | - 5 
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Comencemos demostrando que los dos miembros de las form, as cuadraticas son identicos. 
El primer miembro puede escribirse 

z'(A + B)z — 2zpAa + Bb) + aAa + b'Bb 

y llamando c = (A + B) _1 (Aa + Bb) ,tambien puede escribirse 

z'(A + B)z — 2z'(A + B)c + c ; (A + B)c — ti(A + B)c + aAa + b'Bb 

que es igual a 

(z - c)'(A + B)(z - c) + aAa + b'Bb - (a A + b'B)(A + B) _1 (Aa + Bb) 

La primera parte de esta expresidn es la primera forma cuadratica del segundo miembro 
del Lem,m,a. Operando en la segunda parte, resulta 

a' (A - A(A + B) _1 A)a + b'(B - B(A + B) _1 B)b - 2b'B(A + B) _1 Aa 

y utilizando que, segun la seccidn 2.3.4: 

(A -1 +B -1 ) _1 = A - A(A + B) _1 A = B - B(A + B) _1 B = B(A + B) _1 A 

resulta que la segunda forma cuadratica es 

(a - b) , (A _1 +B^ 1 ) _1 (a - b) 

Para comprobar la segunda parte, como (A _1 +B _1 ) _1 = B(A + B) _1 A, tenemos que 
| A” 1 +B^ 1 |~ 1 = |B| | A + Bp 1 ) A| con lo que |A||B| = |A + B||A _1 +B _1 | _1 


Utilizando este lema, la suma de (x — /x)V x (x — fj,)' y n 0 (/i. — /i. 0 )'V 1 (/x — /x 0 ) puede 
escribirse como: 

77/77/Q 

(n + n 0 )(/x - /x p )'V _1 (/z ~ R P ) + , ' (* - /x 0 )V^ 1 (x - /z 0 ) 

y y n + no 

donde 

_ n 0 /x 0 + nx 

Rp i 

y no + n 

Con estos resultados la posterior puede descomponerse como producto de p(/z|V ’X) 
por p(V 1 1 X ) . La primera distribution es la de la media a posteriori dada la varianza, que 
es normal multivariante 

P(R |V -1 X) = c|V _1 | 1/2 exp {-1/2 [{n + n 0 )(/x - /z p )'V _1 (/z - /z p )] } . 

y la segunda es la distribution marginal a posteriori de la matriz de precision, p(V” 1 |X), 
dada por 

p(V _1 |X) = c\V- 1 \ (n+mo ~ p - 1)/2 exp { — l/2(brV“ 1 M p ' 1 )} 

donde 

M; 1 = M -1 m 0 + nSd — ^-(x - /x 0 )(x - Ho)' 

F n + n 0 

y representa una distribution de Wishart W p (n + mo,M p ). 
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Capftulo 12 


ANALISIS FACTORIAL 

12.1 INTRODUCCION 


El analisis factorial tiene por objeto explicar si un conjunto de variables observadas por 
un pequeno numero de variables latentes, o no observadas, que llamaremos factores. Por 
ejemplo, supongamos que hemos tornado veinte medidas fi'sicas del cuerpo de una persona: 
estatura, longitud del tronco y de las extremidades, anchura de hombros, peso, etc. Es 
intuitivo que todas est-as medidas no son independientes entre si, y que conocidas algunas 
de ellas podemos prever con poco error las restantes. Una explication de est-e hecho es que 
las dimensiones del cuerpo humano dependen de ciertos factores, y si estos fuesen conocidos 
podrfamos prever con pequeno error los valores de las variables observadas. Como segundo 
ejemplo, supongamos que estamos interesados en estudiar el desarrollo humano en los pai'ses 
del mundo, y que disponemos de muchas variables economicas, sociales y demograficas, en 
general dependientes entre si, que estan relacionadas con el desarrollo. Podemos pregun- 
tarnos si el desarrollo de un pai's depende de un pequeno numero de factores tales que, 
conocidos sus valores, podn'amos prever el conjunto de las variables de cada pai's. Como 
tercer ejemplo, supongamos que medimos con distintas pruebas la capacidad mental de un 
individuo para procesar information y resolver problemas. Podemos preguntarnos si existen 
unos factores, no directamente observables, que explican el conjunto de resultados observa- 
dos. El conjunto de estos factores sera lo que llamamos inteligencia y es important^ conocer 
cuant-as dimensiones distintas tiene este concept.o y como caracterizarlas y medirlas. El 
analisis factorial surge impulsado por el int-eres de Karl Pearson y Charles Sperman en com- 
prender las dimensiones de la inteligencia humana en los anos 30, y muchos de sus avances 
se han producido en el area de la psicometna. 

El analisis factorial esta relacionado con los componentes principales, pero existen ciertas 
diferencias. En primer lugar, los componentes principales se construyen para explicar las 
varianzas, mientras que los factores se construyen para explicar las covarianzas o correlaciones 
entre las variables. En segundo lugar, componentes principales es un herramienta descriptiva, 
mientras que el analisis factorial presupone un modelo estadfst-ico formal de generation de 
la muestra dada. 
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12.2 EL MODELO FACTORIAL 

12.2.1 Hipotesis basicas 

Supondremos que observamos un vector de variables x, de dimensiones (p x 1), en elemen- 
tos de una poblacion. El modelo de analisis factorial establece que este vector de datos 
observados se genera mediant-e la relacion: 

x = + Af + u (12.1) 


donde: 

1. f es un vector (m x 1) de variables latentes o factores no observadas. Supondremos 
que sigue una distribution N m ( 0, 1), es decir los factores son variables de media cero e 
independientes entre sf y con distribucion normal. 

2. A es una matriz (p x m ) de constantes desconocidas ( m < p). Cont-iene los coeficientes 
que describen como los factores, f , afectan a las variables observadas, x, y se denomina 
matriz de carga. 

3. u es un vector (p x 1) de perturbaciones no observadas. Recoge el efecto de todas 
las variables distintas de los factores que influyen sobre x. Supondremos que u tiene 
distribution N p ( 0, ip) donde ip es diagonal, y que las perturbaciones estan incorreladas 
con los factores f. 

Con estas tres hipotesis deducimos que: 

(a) pi es la media de las variables x, ya que tanto los factores como las perturbaciones 
tienen media cero; 

(b) x tiene distribucion normal, al ser suma de variables normales, y llamando V a su 
matriz de covarianzas 


x~7V>,V). 

La ecuacion (12.1) implica que dada una muestra aleatoria simple de n elementos generada 
por el modelo factorial, cada dato x tJ puede escribirse como: 

Xij P j Xjlfli “I" ••• ~t~ Xjmfmi A Uij i 1, ...,U j 1, ...,p 

que descompone i' y - , el valor observado en el individuo i de la variable j, como suma de 
rn I 2 terminos. El primero es la media de la variable j, del segundo al m + 1 recogen 
el efecto de los m factores, y el ultimo es una perturbation especffica de cada observation, 
u^. Los efectos de los factores sobre x t] son el producto de los coeficientes A ? j , . . . , \ :)rn . que 
dependen de la relation entre cada factor y la variable j, (y que son los mismos para todos 
los elementos de la muestra), por los valores de los m factores en el elemento muestral i, 
fu, •••, fmi- Poniendo juntas las ecuaciones para todas las observaciones, la matriz de datos, 
X, (n x p), puede escribirse como: 


X = 1/x' + FA'+U 
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donde 1 es un vector n x 1 de unos, F es una matriz (n x m ) que contiene los m factores 
para los n element-os de la poblacion, A' es la transpuesta de la matriz de carga (m x p) 
cuyos coeficientes constantes relacionan las variables y los factores y U es una matriz (n x p) 
de perturbaciones. 

12.2.2 Propiedades 

La matriz de carga A contiene las covarianzas entre los factores y las variables observadas. 
En efecto, la matriz de covarianzas (p x to) entre las variables y los factores se obt-iene 
multiplicando (12.1) por f' por la derecha y t-omando esperanzas: 

E [(x - /x)f'] = A E [S'] + E [uf'] = A 

ya que, por hipotesis, los factores estan incorrelados (E [ff 7 ] = I) y tienen media cero y estan 
iucorrelados con las perturbaciones (E [uf 7 ] = 0). Esta ecuacion indica que los terminos 
A ij de la matriz de carga, A, representan la covarianza entre la variable x t y el factor fj, 
y, al t.ener los factores varianza unidad, son los coeficientes de regresion cuando explicamos 
las variables observadas por los factores. En el caso particular en que las variables xest-en 
estandarizadas, los terminos \, : j coeficientes son tambien las correlaciones entre las variables 
y los factores. 

La matriz de covarianzas entre las observaciones verifica, segiin (12.1): 

V = E [(x - fi)(x - pi)'] = A E [ff 7 ] A ' + E [uu'] 

ya que Elfu 7 ] = 0 al estar incorrelados los factores y el ruido. Entonces, se obtiene la 
propiedad fundamental: 

( 12 . 2 ) 

que establece que la matriz de covarianzas de los dat-os observados admite una descomposicion 
como suma de dos matrices: 

(1) La primera, A A 7 , es una matriz simetrica de rango m < p. Esta matriz contiene la 
parte comun al conjunto de las variables y depende de las covarianzas entre las variables y 
los factores. 

(2) La segunda, r/>, es diagonal, y contiene la parte especi'fica de cada variable, que es 
independient-e del resto. 

Esta descomposicion implica que las varianzas de las variables observadas pueden de- 
scomponerse como: 

m 

<?i = + ^’ i = l,...,p. 

3 = 1 

donde el primer termino es la suma de los efect-os de los factores y el segundo el efecto de la 
perturbation. Llamando 

m 
3 = 1 


V = AA' + 
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a la suma de los efectos de los factores que llamaremos comunalidad, tenemos que 

of = + </f , i = l,...,p. (12.3) 

Esta igualdad puede interpretarse como una descomposicion de la varianza en: 

Varianza observada = Variabilidad comun + Variabilidad especi'fica 

(Comunalidad) 

que es analoga a la descomposicion clasica de la variabilidad de los datos en una parte 
explicada y otra no explicada que se realiza en el analisis de la varianza. En el modelo 
factorial la parte explicada es debida a los factores y la no explicada al ruido o componente 
aleatorio. Esta relation es la base del analisis que presentamos a continuation. 

Ejemplo 12.1 Supongamos que tenemos tres variables generadas por dos factores. La ma- 
triz de covarianzas debe verificar 


^ll 

C 12 

C 13 


' A n 

A12 


1 1 

to 

A21 

A22 

A31 

A32 


" Vbi 

0 

0 

cr 21 

^22 

°'23 

= 

A21 

A22 


+ 

0 

^22 

0 

<^31 

<^32 

<^33 


A31 

1 

CO 



0 

0 

V’ 33 


Esta igualdad proporciona 6 ecuaciones distintas (recordemos que al ser V simetrica solo 
tiene 6 terminos distintos). La primera sera: 

a n = + ^12 + Vbi 

Llamando h\ = An + A^ 2 o, la contribucion de los dos factores en la variable 1. Las seis 
ecuaciones son : 

crii = hf + ipi i = 1,2,3 

<r t j = XnXji + Aj2 Aj2 i — 1,2,3 

i A j 


12.2.3 Unicidad del modelo 

En el modelo factorial ni la matriz de carga, A, ni los factores, f , son observables. Esto plant-ea 
un problema de indeterminacion: dos representaciones (A,f) y (A*,f*) seran equivalentes si 

Af = A*f* 

Esta situacion conduce a dos tipos de indeterminacion. 

(1) Un conjunto de datos puede explicarse con la misma precision con factores incorrelados 
o correlados. 

(2) Los factores no quedan determinados de manera unica. 

Vamos a analizar estas dos indeterminaciones. Para mostrar la primera, si H es cualquier 
matriz no singular, la representation (12.1) puede tambien escribirse como 

x = pi + AHH -1 f + u 


(12.4) 
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y llamando A* = AH a la nueva matriz de carga, y f* = H 1 f a. los nuevos factores: 

x = /x + A*f* + u, (12.5) 

donde los nuevos factores f* tienen ahora una distribution N (0, H _1 (H _1 ) / ) y, por lo tanto, 
estan correlados. Analogamente, partiendo de factores correlados, f ~ A(0,Vf), siempre 
podemos encontrar una expresion equivalent-e de las variables mediante un modelo con fac- 
tores incorrelados. En efecto, sea A una matriz tal que V f = AA' . (Esta matriz siempre 
exist-e si V f es definida posit-iva), entonces A 1 V f (A 1 ) / = I, y escribiendo 

x = /x + A(A)(A _1 )f + u, 

y tomando A*= A A como la nueva matriz de coeficientes de los factores y f* = A“ 1 f 
como los nuevos factores, el modelo es equivalents a otro con factores incorrelados. Esta 
indeterminacidn se ha resuelt-o en las hipotesis del modelo tomando siempre los factores 
como incorrelados. 

En segundo lugar, si H es ortogonal, el modelo x = /x + Af+u y el x = /x + (AH) (H ; f) + u 
son indistinguibles. Ambos cont-ienen factores incorrelados, con matriz de covarianzas la 
identidad. En este sentido, decimos que el modelo factorial esta indeterminado ante rota- 
ciones. Esta indeterminacidn se resuelve imponiendo restricciones sobre los componentes de 
la matriz de carga, como veremos en la section siguiente. 

Ejemplo 12.2 Supongam-os x = (aq, x 2 , x 3 )' y el modelo factorial Mi siguiente: 



y los factores estan incorrelados. Vamos a escribirlo como otro modelo equivalent-e de factores 
tambien incorrelados. Tomando H = j j , esta matriz es ortogonal, ya que H -1 = 
H r = H. Entonces 


1 1 
x = 0 1 


V2 [ 1 -1 J V2 [ 1 


Llamando a este m-odelo, M 2 , puede escribirse como: 

r jl n i 

V2 U 

_ J_ 1 _ 

X “ xti 

1 1 

V2 V2 

y los nuevos factores, g, estan relacionados con los anteriores, f , por: 
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y son por lo tanto una rotacion de los iniciales. Comprobemos que estos nuevos factores 
estan tambien incorrelados. Su matriz de varianzas es: 



y si Vf = I => V g = I, de donde se deduce que los modelos Ml y M2 son indistinguibles. 

12.2.4 Normalizacion del modelo factorial 

Como el modelo factorial esta indeterminado ante rotaciones la matriz A no esta identificada. 
Esto implica que aunque observemos toda la poblacion, y /x, y V sean conocidos, no podemos 
determinar A de manera unica. La solution para poder estimar esta matriz es imponer 
restricciones sobre sus terminos. Los dos metodos principales de estimation que vamos a 
estudiar utilizan alguna de las dos siguientes normalizaciones: 


Criterio 1: 

Exigir: 


Knxp^pxm = D = Diagonal (12.6) 

Con esta normalization los vectores que definen el efecto de cada factor sobre las p vari- 
ables observadas son ortogonales. De esta manera, los factores ademas de estar incorrelados 
producen efectos lo mas distintos posibles en las variables. Vamos a comprobar que esta 
normalization define una matriz de carga de manera unica. Supongamos primero que teu- 
emos una matriz A t-al que el producto A 1 A no es diagonal. Transformamos los factores con 
A* = AH, donde H es la matriz que contiene eu columuas los vectores propios de A'A. 
Ent-onces: 


A'* A* = HA' AH (12.7) 

y como H diagonaliza A'A la matriz A* verifica la condition (12.6). Veamos ahora que esta es 
la unica matriz que lo verifica. Supongamos que rotamos esta matriz y sea A** = AC donde 
C es ortogonal. Ent-onces la matriz A**'A** = C'A'* A*C no sera diagonal. Analogamente, si 
partimos de una matriz que verifica (12.6) si la rotamos dejara de verificar esta condition. 

Cuando se verifica esta normalizacion, postmultiplicando la ecuacion (12.2) por A, podemos 
escribir 


(V - iff) A = AD, 

que implica que las columnas de A son vectores propios de la matriz V — -0, que t-iene como 
valores propios los terminos diagonales de D. Esta propiedad se utiliza en la estimation 
mediant-e el met-odo del factor principal. 
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Criterio 2: 

Exigir: 


A' ip 1 A = D =Diagonal (12-8) 

En esta normalization los efectos de los factores sobre las variables, ponderados por las 
varianzas de las perturbaciones de cada ecuacion, se hacen incorrelados. Como la anterior, 
esta normalization define una matriz de carga de manera unica. En efecto, supongamos que 
A'ip~ 1 A no es diagonal, y transformamos con A* = AH. Entonces: 

A , *'0“ 1 A* = H' (AV _1 A) H (12.9) 

y como A 1 ip 1 A es una matriz simetrica y definida no negat.iva, siempre puede diagonalizarse 
si escogemos como H la matriz que contiene en column as los vectores propios de A’ip~ l A. 
Analogamente, si se verifica de partida (12.8) y rotamos la matriz de carga esta condition 
dejara de verificarse. Esta es la normalization que utiliza la estimation maximo verosi'mil. Su 
justificacion es que de esta manera los factores son condicionalmente independientes dados 
los datos, como veremos en el apendice 12.4. 

Con esta normalization, postmultiplicando la ecuacion (12.2) por ip~ l A, tenemos que 

V«/)" 1 A-A = AD 

y premultiplicando por ip l/2 , resulta: 

^- 1/2 V^ _1 A - ip ~ 1/2 A = t/T 1/2 AD 

que implica 

^- 1/2 V^" 1/2 '0 _1/2 A = ip~ l/2 A (D + I) 

y concluimos que la matriz 1/2 tiene vectores propios ip l,/2 A con valores propios 

D + I. Esta propiedad se utiliza en la estimation maximo verosi'mil. 

12.2.5 Numero maximo de factores 

Si sustituimos en (12.2) la matriz teorica de covarianzas, V, por la matriz muestral, S, el 
sistema estara identificado si es posible resolverlo de manera unica. Para ello existe una 
restriction en el numero de factores posibles. El numero de ecuaciones que obtenemos de 
(12.2) es igual al conjunto de terminos de S, que es p+p(p — 1)/2 = p(p + 1)/2. El numero de 
incognitas en el segundo termino es pm, los coeficientes de la matriz A, mas los p terminos de 
la diagonal de ip, menos las restricciones impuestas para identificar la matriz A. Suponiendo 
que A 1 ip 1 A debe ser diagonal, esto supone m(m — l)/2 restricciones sobre los terminos de 
A,. 

Para que el sistema este determinado debe haber un numero de ecuaciones igual o mayor 
que el de incognitas. En efecto, si exist-en menos ecuaciones que incognitas no es posible 
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encontrar una solution unica y el modelo no esta identificado. Si el numero de ecuaciones es 
exact-amente igual al de incognitas existira una solution unica. Si exist-en mas ecuaciones que 
incognitas, podremos resolver el sistema en el sentido de los mi'nimos cuadrados y encontrar 
unos valores de los parametros que minimicen los errores de estimation. Por lo tanto: 


que supone: 


p + prn — 


m(m — 1) pip + 1) 


< 


p + m < p 2 — 2 pm + m 2 , 


es decir 


(p — m) 2 ^ p + m. 

El lector puede comprobar que esta ecuacion implica que, cuando p no es muy grande 
(menor de 10) aproximadamente el numero maximo de factores debe ser menor que la mitad 
del numero de variables menos uno. Por ejemplo, el numero maximo de factores con 7 vari- 
ables es 3. Esta es la regia que se obtiene si escribimos la desigualdad anterior despreciando 
el termino de las restricciones sobre los element-os de A. 


12.3 EL METODO DEL FACTOR PRINCIPAL 


El metodo del factor principal es un metodo para estimar la matriz de carga basado en 
componentes principales. Evit-a t-ener que resolver las ecuaciones de maxima verosimilitud, 
que son mas complejas. Tiene la ventaja de que la dimension del sistema puede identificarse 
de forma aproximada. Se ut-iliza en muchos programas de ordenador por su simplicidad. Su 
base es la siguient-e: supongamos que podemos obt-ener una estimation inicial de la matriz 
de varianzas de las perturbaciones '0. Entonces, podemos escribir 

S-‘0=AA', (12.10) 

y como S - tj) es simetrica, siempre puede descomponerse como: 

S-^ = HGH'=(HG 1/2 )(HG 1/2 )' (12.11) 


donde H es cuadrada de orden [> y ortogonal, G es tambien de orden p. diagonal y cont-iene 
las rafces caracten'st-icas de S — •?/>. El modelo factorial establece que G debe ser diagonal 
del tipo: 


G = 


Gi 


O, 


r lmxm ^mx (p—m) 

G(p-m)xm O (p—m)x(p—m) 


ya que S - ^ tiene rango m. Por tanto, si llamamos Hi a la matriz p x m que contiene 
los vectores propios asociados a los valores propios no nulos de Gi podemos t-omar como 
est-imador de A la matriz p x m: 


A = H!G; 


1/2 


( 12 . 12 ) 
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con lo que resolvemos el problema. Observemos que la normalizacion resultante es: 

A'A = G^H^HiGi 72 = Gi = Diagonal (12.13) 

ya que los vectores propios de matrices simetricas son ortogonales, por lo que H'H| = I m . 
Por tanto, con este metodo se obt-ienen estimadores de la matriz A con columnas ortogonales 
entre si'. 

En la practica la estimacion se lleva a cabo de forma iterativa como sigue: 

1. Partir de una estimacion initial de A ?: o de i/b mediante ?/b = diag ^S-AA'j . 

2. Calcular la matriz cuadrada y simetrica Q, = S— i/v 

3. Obtener la descomposicion espect-ral de Q, de forma 

Qi = HhGhH), + H 2i G 2i H', 

donde G \ , cont-iene los m mayores valores propios de Q, y Hj, sus valores propios. 
Elegiremos m de manera que los rest-antes vectores propios cont-enidos en G 2i sean 
t-odos pequenos y de tamano similar. La matriz Q, puede no ser definida positiva y 
algunos de sus valores propios pueden ser negat-ivos. Esto no es un problema grave si 
estos valores propios son muy pequenos y podemos suponerlos proximos a cero. 

4. Tomar A i+1 = H^Gj 72 y volver a (1). Iterar hast-a convergencia, es decir hast-a que 
II An+i — A n || < e. 

Los estimadores obtenidos seran consist-ent-es pero no eficient-es, como en el caso de Max- 
ima verosimilitud. Tampoco son invariant-es ante transformaciones lineales, como los MV, 
es decir, no se obtiene necesariamente el mismo result-ado con la matriz de covarianzas y con 
la de correlaciones. 

Para llevar a la pract-ica esta idea, debemos especificar como obtener el estimador initial 
-0, problema que se conoce como la estimation de las comunalidades. 

12.3.1 Estimacion de las comunalidades 

Estimar los terminos L'f equivale a definir valores para los terminos diagonales, /;| , de AA', 
^2 

ya que h\ — s\ — Existen las siguientes alternativas: 

1. t-o mar ip i = 0. Esto equivale a extraer los component-es principales de S. Supone tomar 
/if = sf ( en el caso de correlaciones /if = 1 ), que es clarament-e su valor maximo, por 
lo que podemos comenzar con un sesgo importante. 

^2 

2. tomar ^ • = 1/sL, donde s*j es el elemento diagonal j-esimo de la matriz de precision 
S -1 . Segun el apendice 3.2 est-o equivale a t-omar /if como: 


h) = s)-s)(l-R>) = s)Rl 


(12.14) 
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donde R.j es el coeficient.e de correlation multiple entre x :) y el resto de las variables. 
Intuitivamente, cuanto mayor sea R'j mayor sera la comunalidad h‘j. Con este metodo 
comenzamos con nna estimation sesgada a la baja de hf . ya que hf < tij. En efecto, 
por ejemplo, suponemos que para la variable x \ el modelo verdadero es 

m 

•f i - ^2 + "i (12.15) 

3 = 1 

que esta asociado a la descomposicidn a\ = h\ I tp 1 . La proportion de varianza 
explicada es h\/cr\. Si escribimos la ecuacion de regresion 

X\ = 62^2 + • • • + bpXp + €\ 

sust-ituyendo cada variable por su expresion en terminos de los factores tenemos que: 
%i — ^2 ^ 2jfj + U2^ + ... T b p \jfj + u p S j + e - (12.16) 

que conducira a una descomposicion de la varianza o\ = h\ +ip 1 . Clarament-e h\ < h \ , 
ya que en (12.16) forzamos a que aparezcan como regresores ademas de los factores, 
como en (12.15) los ruidos : u p de cada ecuacion. Ademas, es posible que un 

factor afecte a x 1 pero no al resto, con lo que no aparecera en la ecuacion (12.16). En 
resumen, la comunalidad estimada en (12.16) sera una cot-a inferior del valor real de la 
comunalidad. 


Ejemplo 12.3 En este ejemplo mostraremos las iteraciones del algoritmo del factor prin- 
cipal de forma detallada para los datos de ACCIONES del Anexo I. La matriz de varianzas 
covarianzas de estos datos en logaritm.os es, 


S = 


0.13 0.15 -0.19 

0.15 0.13 -0.03 

-0.19 -0.03 0.16 


Para estim.ar la m.atriz de cargas realizam.os los pasos del algoritmo del factor principal 
descritos anteriorm.ente. Antes de empezar el algoritm.o tenemos que fijar la cota para decidir 
la convergencia . Fijaremos un e grande, 0. 05, de forma que en pocas iteraciones el algoritmo 
converja a pesar de los errores acumulados por el redondeo. 

^2 

Paso 1. Tomando la segunda alternativa para la estimacion inicial de las comunalidades diag^i ) 

1 /s*j. donde s*j es el elemento j-esimo de la matriz S^ 1 


S~ l 


52.094 

-47.906 

52.88 


-47.906 

52.094 

-47.12 


52.88 

-47.12 

60.209 


' 1/52.094 

0 

0 


' 0.019 

0 

0 

0 

1/52.094 

0 

= 

0 

0.019 

0 

0 

0 

1/60.209 


0 

0 

0.017 
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Paso 2. Calculamos la matriz cuadrada y simetrica Qi = S-^j 


0.13 

0.15 

-0.19 ' 


" 0.019 

0 

0 


" 0.111 

0.15 

-0.19 ' 

0.15 

0.13 

-0.03 

— 

0 

0.019 

0 

= 

0.15 

0.111 

-0.03 

-0.19 

-0.03 

0.16 


0 

0 

0.017 


-0.19 

-0.03 

0.143 


Paso 3. Descomposicion espectral de Q, y separacion en dos terminos HijGijH^y H 2 jG 2 ,H , 2i . 

Los valores propios de Q, son 0.379, 0.094, y —0.108. Observemos que uno de ellos es 
negativo, con lo que la matriz no es definida positiva. Como hay un valor propio mucho 
mayor que los demas tomaremos un unico factor. Esto supone la descomposicion 


' 0.111 

0.15 

-0.19 ' 


" -0.670 ' 


" -0.670 ' 

0.15 

0.111 

-0.03 

= 

-0.442 

x 0.379 x 

-0.442 

-0.19 

-0.03 

0.143 


0.596 


0.596 


+ 


-0.036 0.741 

-0.783 -0.438 
-0.621 0.508 


0.094 0 

0 -0.108 


-0.036 0.741 

-0.783 -0.438 
-0.621 0.508 


Paso 4- 


Calculamos Aj + i = 


H 1? G 


1/2 
1 i 


' -0.670 ' 


" -0.412 ' 

-0.442 

x V0.379 = 

-0.272 

0.596 


0.367 


Esta es la primera estim.acidn de la matriz de carga. Vamos a iterar para mejorar esta 
estimacion. Para ello volvemos al paso 1. 


Paso 1. Estimamos los terminos de la diagonal de mediante 


diag ^S— AA'j 


$ i 


diag 

" 0.180 
0 
0 



0.13 

0.15 

-0.19 

0 

0.056 

0 


0.15 

0.13 

-0.03 

0 

0 

0.0253 


-0.19 

-0.03 

0.16 


-0.412 

-0.272 

0.367 


' -0.412 -0.272 0.367 


Paso 2. Calculamos la matriz cuadrada y simetrica Q, = S-^ 


0.13 

0.15 

-0.19 ' 


" 0.180 

0 

0 


" -0.05 

0.15 

-0.19 ' 

0.15 

0.13 

-0.03 

— 

0 

0.056 

0 

= 

0.15 

0.074 

-0.03 

-0.19 

-0.03 

0.16 


0 

0 

0.0253 


-0.19 

-0.03 

0.135 
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Paso 3. Descomposicion espectral de Q, = Hi^G^H^ + H 2 jG 2 iH 2 j 


' -0.05 

0.15 

-0.19 ' 


' -0.559 ' 


" -0.559 ' 

0.15 

0.074 

-0.03 

= 

-0.450 

x 0.307 x 

-0.450 

-0.19 

-0.03 

0.135 


0.696 


0.696 


+ 


0.081 0.825 

0.806 -0.385 
0.586 0.414 


0.067 0 

0 -0.215 


0.081 0.825 

0.806 -0.385 
0.586 0.414 


Paso 4- Calculamos A i+ i = Hi,G 


1/2 
1 i 


Aj+i — 


" -0.559 ' 


" -0.310 ' 

-0.450 

x VO. 307 = 

-0.249 

0.696 


0.386 


comprobamos si se cumple el criterio de convergencia ||A n+1 — A n || < e. 



" -0.310 ' 


" -0.412 ' 



-0.249 

— 

-0.272 



0.386 


0.367 



0.106 > e = 0.05 


volvemos al paso 1 hasta que se cumpla el criterio. 


Paso 1. Volvem.os a estimar V* 


diag ^S— AA'j 




diag 


0.35 0.15 -0.19 

0.15 0.13 -0.03 

-0.19 -0.03 0.16 


0.254 0 0 

0 0.068 0 
0 0 0.011 


-0.310 

-0.249 

0.386 


-.31 -.249 .386' 


Paso 2. Calculamos la matriz cuadrada y simetrica Qi = S-^ 


0.13 

0.15 

-0.19 ' 


" 0.254 

0 

0 


" -0.124 

0.15 

-0.19 ' 

0.15 

0.13 

-0.03 

— 

0 

0.068 

0 

= 

0.15 

0.062 

-0.03 

-0.19 

-0.03 

0.16 j 


0 

0 

0.011 


-0.19 

-0.03 

0.149 


Paso 3. Descomposicion espectral de Q,. Indicarem.os solo el primer vector y valor propio 


" -0.124 

0.15 

-0.19 ' 


' -0499 ' 


' -0499 ' 

0.15 

0.062 

-0.03 

= 

-0.425 

x 0.291 x 

-0.425 

-0.19 

-0.03 

0.149 


0.755 


0.755 
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Paso 4 ■ Calculam.os A i+1 = H^G-^ 


1/2 



' -0499 ' 


" -0.269 ' 

Aj+i — 

-0.425 

x V0.291 = 

-0.229 


0.755 


0.407 






comprobamos si se cumple el criterio de convergencia 


Atj+i A ? - 


< e. 



" -0.269 ' 


" -0.310 ' 



-0.229 

— 

-0.249 



0.407 


0.386 



= 0.05 > e = 0.05 


El criterio de convergencia se ha cumplido y el modelo con los parametros estimados es: 


" -0.269 ' 


U\ 

-0.229 

fi + 

u 2 

0.407 


. U 3 . 


Ml 

( 

" 0 ' 


' 0.254 

0 

0 

\ 

u 2 

~ n 3 

0 


0 

0.068 

0 


. U 3 . 

V 

0 


0 

0 

0.011 

/ 


Observemos que la expresion del factor obtenido es bastante distinta a la del primer 
componente principal que se obtuvo en el ejercicio 5.1 


Ejemplo 12.4 Para la base de datos de INVEST se realizo un analisis descriptivo en el 
capital o 4 en el que se propuso una transformation logaritmica en todas las variables y la 
elimination de EEUU. Sobre este conjunto de datos, una vez estandarizados, vamos a ilustrar 
el calculo de un unico factor mediante el metodo del factor principal ( en el ejemplo siguiente 
se consideran 2 f adores). Vamos a comparar los dos metodos propuestos para inicializar el 
algortimo con los datos estandarizados. En el primer caso comenzamos las iteraciones con 

fj = 0 =► h\ o) = 1, 

y el numero de iteraciones antes de converger es 6. El criterio de parada en el paso k del 
algoritmo es, en este caso, que la diferencia maxima entre las comunalidades en k y k-1 sea 
menor de 0.0001. En la siguiente tabla se presentan las estimaciones de las comunalidades 
para los pasos i— 0,1, 2, 3, 6. 



h l) 

h h 

h \ 2 ) 

h %) 

h h 

INTER.A 

1 

0.96 

0.96 

0.96 

0.96 

INTER. B 

1 

0.79 

0.76 

0.75 

0.75 

AGRIC. 

1 

0.94 

0.94 

0.94 

0.94 

BIOLO. 

1 

0.92 

0.91 

0.91 

0.91 

MEDIC. 

1 

0.97 

0.97 

0.97 

0.97 

QUIMI. 

1 

0.85 

0.83 

0.82 

0.82 

INGEN. 

1 

0.9 

0.88 

0.88 

0.88 

FISICA 

1 

0.94 

0.93 

0.93 

0.93 
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En negrilla figura el resultado final una vez que ha convergido el algoritmo. 

Si inicializamos el algoritmo con el segundo metodo, 

el numero de iteraciones antes de converger es 5. En la siguiente tabla se present.an como 
varian la estimaciones de las comunalidades para los pasos i=0,l,2,3,5. 



h %) 

h h 

h %) 

h %) 

h %) 

INTER.A 

0.98 

0.96 

0.96 

0.96 

0.96 

INTER.B 

0.82 

0.76 

0.75 

0.75 

0.75 

AGRIC. 

0.95 

0.94 

0.94 

0.94 

0.94 

BIOLO. 

0.97 

0.92 

0.91 

0.91 

0.91 

MEDIC. 

0.98 

0.97 

0.97 

0.97 

0.97 

QUIMI. 

0.85 

0.82 

0.82 

0.82 

0.82 

INGEN. 

0.93 

0.89 

0.88 

0.88 

0.88 

FISICA 

0.97 

0.94 

0.93 

0.93 

0.93 


En negrilla figura el resultado final una vez que ha convergido el algoritmo. Al haber inicial- 
izado el algoritmo en un punto mas proximo al final, la convergencia ha sido mas rapida, 
y ya en la segunda iteracion el resultado es muy proximo al final. Se observa como la esti- 
mation inicial de las comunalidades, hC , es cota superior de la estimacion final, hC ■ En 

la siguiente tabla presentamos la estimacion de A( 0 ) de las que partimos en arnbos metodos 
y la estimacion de las cargas finales obtenidas. 



= 0 

= 1 - R 2 i 

Final 

Factorl 

Factorl 

Factorl 

INTER.A 

0.97 

0.97 

0.98 

INTER.B 

0.89 

0.87 

0.87 

AGRIC. 

0.97 

0.97 

0.97 

BIOLO. 

0.96 

0.96 

0.95 

MEDIC. 

0.98 

0.98 

0.99 

QUIMI. 

0.92 

0.90 

0.91 

INGEN. 

0.94 

0.94 

0.94 

FISICA 

0.96 

0.97 

0.97 


El segundo metodo proporciona un A( 0 ) mas proximo al resultado final, sobre todo para aque- 
llas variables donde la variabilidad especifica es mayor. 


12.3.2 Generalizaciones 


El metodo de estimacion del factor principal es un procedimiento de minimizar la funcion: 

F = tr { S - AA' - ^) 2 • (12.17) 
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En efecto, esta funcion puede escribirse 


p p 

= (12.18) 
1=1 j = 1 

donde v i3 son los elementos de la matriz V = A A 7 + xf. Ahora bien, por la descomposicion 
espect.ral, dada una matriz S cuadrada simetrica y no negat-iva la mejor aproximacion en 
el sentido de mmirnos cuadrados (12.18) mediante una matriz de rango m, A A 7 se obt-iene 
tomando A = HD 12 , donde H cont-iene los vectores propios y D 1 / 2 las rai'ces de los valores 
propios de S (vease el apendice 5.2), que es lo que hace el metodo del factor principal. 

Harman (1976) ha desarrollado el algoritmo MINRES que minimiza (12.17) mas eficien- 
temente que el metodo del factor principal y Joreskog (1976) ha propuesto el algoritmo USL 
(unweighted least squares), que se basa en derivar en (12.17), obtener A como funcion de xp 
y luego minimizar la funcion resultante por un algoritmo no lineal tipo Newton-Raphson. 

Ejemplo 12.5 Con los datos de INVEST, utilizados en el ejemplo anterior, presentamos el 
analisis factorial para dos factores realizado con un programa de ordenador con el metodo del 
factor principal. La tabla 12.1 indica la variabilidad de ambos factores. El segundo factor 
explica poca variabilidad (2%) pero ha sido incluido por tener una clara interpretacion. 



Factorl 

Factor2 

Variabilidad 

7.18 

0.17 

P h 

0.89 

0.02 

Eli P h 

0.89 

0.91 


Tabla 12.1: Variabilidad explicada por los dos primeros factores estimados por el metodo 
del factor principal. 

El algoritmo del factor principal se inicia con xpj = 1 — i? 2 , y se han realizado 14 itera- 
ciones antes de converger a los pesos que se presentan en la tabla 12.2. 



Factorl 

Factor2 

Vi 

INTER. A 

0.97 

-0.06 

0.04 

INTER. B 

0.87 

0.16 

0.22 

AGRIC. 

0.97 

-0.03 

0.06 

BIOLO. 

0.95 

-0.24 

0.02 

MEDIC. 

0.99 

-0.10 

0.02 

QUIMI. 

0.91 

-0.09 

0.17 

INGEN. 

0.94 

0.21 

0.06 

FISICA 

0.97 

0.17 

0.03 


Tabla 12.2: Matriz de cargas de los factores y comunalidades 

El primer factor es la suma de las publicaciones en todas las bases, nos da una idea 
de volumen. Segun este factor los paises quedarian ordenados en funcion de su produccion 
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cienUfica. El segundo factor contrapone la investigacion en biomedicina con la investigacion 
en tecnologia. Este segundo componente separa a Japon y Reino Unido, paises con una gran 
produccion cienUfica. 

En la figura 12.1 se presenta un graftco de los paises sobre estos dos f adores. El lector 
debe comparar estos resultados con los obtenidos en el capitulo 5 ( ejercicios 5.6 y 5.10) con 
componentes principales. 


jp 


GR 


CH 


AU 


IR 


UK 


Factorl 


Figura 12.1: Representation de los pai'ses en el piano formado por los dos primeros factores. 

12.4 ESTIMACION MAXIMO VEROSlMIL 

12.4.1 Estimacion MV de los parametros 

Enfoque direct o 

Las matrices de parametros pueden estimarse formalmente mediante maxima verosimilitud. 
La funcion de densidad de las observaciones originales es N p (fi, V). Por tanto la verosimilitud 
es la estudiada en el capitulo 10. Sustituyendo /x por su estimador, x, la funcion soporte 
para V es: 

77 77 

l°g(V|X) = --log |V| - - tr (SV- 1 ) , (12.19) 

y sustituyendo V por (12.2) la funcion soporte de A y ip es : 

77 

L{ A, fi}) = -- (log |AA' + fi>\ + tr{ S(AA' + ^Y 1 ) . 

At 


( 12 . 20 ) 
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Los estimadores de maxima verosimilitud se obtienen maximizando (12.20) respecto a 
las matrices A y ip. Derivando con respecto a est-as matrices y tras ciertas manipulaciones 
algebraicas que se resumen en el Apendice 12.1, (vease Anderson, 1984, pp. 557-562) o 
Lawley y Maxwell, 1971), se obtienen las ecuaciones: 

ip = diag (S — AA ) (12.21) 


— 1/2 , , — — 1/2 

iP (S-I)^ 


ip 1/2 a) = (ip 1/2 A ) D 


( 12 . 22 ) 


donde D es la matriz result-ado de la normalization 


A 'ip A = D =diagonal. 


(12.23) 


Est-as tres ecuaciones permiten resolver el sist-ema ut-ilizando un algoritmo iterat-ivo tipo 
Newt-on-Raplison. La solution numerica es a veces difi'cil porque puede no haber una solu- 
tion en la cual ip sea definida posit-iva, y es necesario entonces acudir a la estimation con 
restricciones. Observemos que (12.22) conduce a una ecuacion de valores propios: nos dice 

— ^— 1 / 2 --- . . / . — — 1 /2 ~- l / 2 \ 

que ip A contienen los vectores propios de la matriz simetrica [ip (S — I )ip ) y 
que D contiene los valores propios 

El algoritmo it-erat-ivo para resolver estas ecuaciones es: 


1. Partir de una estimation inicial. Si t-enemos una estimation Aj, (i = 1 la primera 
vez), por ejemplo por el metodo del factor principal, se calcula la matriz ip { mediant-e 
ipi = diag (S— AjA' j . Alternativamente, podemos estimar la matriz ip t directamente 
por el metodo del factor principal. 


- 1/2 


7-1/2 7-I/27-I/2 

1 Pi = ip S ip 


2. Se calcula la matriz cuadrada simetrica A, = ip i yS- ip- 

I. Esta matriz pondera los terminos de S por su importancia en terminos de los 
component-es especi'ficos. 


3. Se obtiene la descomposicion espect-ral de A, de forma que 


Aj = HhGhH); + H 2i G 2 ,:Hf, 


2 i^*2in- 2i 


donde los m mayores valores propios de A, est-an en la matriz diagonal (m x rn). G l!: 
y los p — m menores de la G 2 , y H 1 1 y H 2 , contienen los correspondient-es vectores 
propios. 

^ -^ 1/2 ^ /2 

4. Se toma A^ + i = y se sustituye en la funcion de verosimilitud, que se 

maximiza respecto a ip. Esta part-e es facil de hacer con un algortimo de optimizacion 
no lineal. Con el result-ado obt-enido se vuelve a (2), it-erando hast-a la convergencia. 


Puede ocurrir que est-e algoritmo converja a un maximo local donde algunos de los termi- 
nos de la matriz ip sean negat-ivos. Esta solucion impropia se denomina a veces una solucion 
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de Heywood. Los programas existentes cambian entonces esos valores por numeros positivos 
e intentan encontrar otro maximo local, aunque no siempre el algortimo converge. 

En el Apendice 12.1 se comprueba que la estimation MV es invariante ante transforma- 
ciones lineales de las variables. En consecuencia, el resultado de la estimation no depende 
-como ocurre en componentes principales- del uso de la matriz de covarianzas o de correla- 
ciones. Una ventaja adicional del metodo de maxima verosimilitud es que podemos obt-ener 
las varianzas asintoticas de los est-imadores mediante la matriz de information en el bptirno. 

Observemos que cuando la matriz xp t-iene los terminos diagonales aproximadament-e 
iguales, la estimation MV conducira a resultados similares al metodo del factor principal. 
En efecto, sustituyendo en las ecuaciones del estimador MV xp = kl, ambos metodos utilizan 
la misma normalization y la ecuacion (12.22) es analoga a la (12.11), que se resuelve en el 
metodo del factor principal. 

El algortimo EM 

Un procedimiento alternative para maximizar la verosimilitud es considerar los fact-ores como 
valores ausentes y aplicar el algoritmo EM. La funcion de verosimilt-ud conjunta de los dat-os 
y los fact-ores puede escribirse /(x x , ...,x n ,f^ ...,f n ) = /(x 1} ...,x n |f!, ...,f n ) /( fi, ...,f„). El 
soporte para la muestra complet-a es 

log(t/>,A|X,F) = -^log|V.|-l^(x,-Af i )V- 1 (x,-Af,)-l^f,f', (12.24) 

donde suponemos que las variables x, : tienen media cero, lo que equivale a sustituir la media 
por su estimador la media muestral. Observemos que, dados los fact-ores, la estimation de A 
podrfa hacerse como una regresion. Por otro lado, dados los parametros podrfamos estimar 
los fact-ores, como veremos en la section 12.7. Para aplicar el algoritmo EM necesitamos: 

(1) Paso M: maximizar la verosimilitud complet-a respecto aAyi) supuesto conocidos 
los valores f) de los fact-ores. Est-o es facil de hacer, ya que las filas de A se obtienen haciendo 
regresiones entre cada variable y los factores, y los element-os diagonales de xp son las varianzas 
residuales en estas regresiones. 

(2) Paso E: hay que calcular la esperanza de la verosimilitud complet-a respect-o a la dis- 
tribution de los f i dados los parametros. Desarrollando (12.24) se observa que las expresiones 
que aparecen en la verosimilitud son la matriz de covarianzas entre los fact-ores y la matriz de 
covarianzas entre los fact-ores y los dat-os. Los det-alles de su estimation pueden consult-arse 
en Bartholomew y Knott (1999, p.49) 


12.4.2 Otros metodos de estimacion 


Como el metodo de maxima verosimilitud es complicado, se han propuest-o ot-ros metodos 
aproximados para calcular est-imadores con similares propiedades asintoticas pero de cal- 
culo mas simple. Uno de ellos es el de mrnimos cuadrados generalizados que exponemos 
a continuation. Para justificarlo, observemos que la estimation MV puede reinterpretarse 
como sigue: si no exist-iesen restricciones sobre V el estimador MV de est-a matriz es S y, 
sustituyendo est-a estimacion en (12.19) la funcion soporte en el maximo es: 


n 


~ 2 lo S I s I ^ 


n 


:P- 
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Maximizar la funcion soporte es equivalents a minimizar con respecto a V la funcion de 
discrepancia obtenida rest.ando del maximo valor anterior el soporte (12.19). La funcion 
obtenida con esta diferencia es: 

71 71 

F = -tr (SV 1 ) --p- log jSV 1 
2 2 

que indica que se desea hacer V tan proximo a S como sea posible, midiendo la distancia entre 
ambas matrices por la traza y el determinants del product-o SV 1 . Observemos que como 
V se estima con restricciones SV 1 1 < 1 y el logaritmo sera negat-ivo o nulo. Centrandonos 
en los dos primeros terminos, y despreciando el determinants, la funcion a minimizar es: 

Fi = tr (SV 1 ) - p = tr (S V 1 - i) = tr [(S - V) V 1 ] 

que minimiza las diferencias entre la matriz S observada y la estimada V, pero dando un 
peso a cada diferencia que depende del tamano de V” 1 . Esto conduce a la idea de mi'nimos 
cuadrados generalizados, MCG (GLS en ingles), donde minimizamos 

tr [(S- V) V" 1 ] 2 

y puede demostrarse que si se itera el procedimiento de MCG se obtienen estimadores 
asintoticamente eficientes 

Ejemplo 12.6 Vam.os a ilustrar la estimation MV para los datos de INVEST. Suponiendo 
dos factores se obtienen los resultados de las t.ablas siguientes: 



Factor 1 

Factor2 

Variabilidad 

6.80 

0.53 

P h 

0.85 

0.06 

EL Ph 

0.85 

0.91 


Tabla 12.3: Variabilidad explicada por los dos primeros factores estimados por maxima 
verosimilitud. 



Factorl 

Factor2 

Vi 

INTER. A 

0.95 

0.25 

0.02 

INTER. B 

0.85 

0.08 

0.26 

AGRIC. 

0.92 

0.26 

0.07 

BIOLO. 

0.88 

0.45 

0.01 

MEDIC. 

0.93 

0.3 

0.02 

QUIMI. 

0.86 

0.29 

0.17 

INGEN. 

0.95 

0.05 

0.09 

FISICA 

1 

0 

0 


Tabla 12.4: Matriz de cargas de los factores 


Si comparamos estos resultados con los obtenidos por el metodo del factor principal ( ejer - 
cicio 12.5) vernos que el primer factor es similar, aunque aumenta el peso de la fisica y hay 
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mas diferencias relativas entre los pesos de las variables. El segundo factor tiene mas cam- 
bios pero su interpretacion es tambien similar. Las varianzas de los componentes especificos 
presentan pocos cambios con arnbos enfoques. Las figuras 12.2 y 12.3 presentan los pesos y 
la proyeccion de los datos sobre el piano de los factores. 


Factorl 


FISICA INTER.A INGEN. MEDIC. AGRIC. BIOLO. QUIMI. INTER.F 


Factor2 


BIOLO. MEDIC. QUIMI. AGRIC. INTER.A INTER.F INGEN. FISICA 


Figura 12.2: Pesos de los variables de INVEST en los dos factores estimados por MV. 

12.5 DETERMINACION DEL NUMERO DE FAC- 
TORES 

12.5.1 Contraste de verosimilitud 

Supongamos que se ha estimado un modelo con m factores. El contraste de que la descom- 
posicion es adecuada puede plantearse como un contraste de razon de verosimilitudes: 

H 0 : V = AA'+i/> 

Hi : V A AA'+i/>- 

Este contraste recuerda al de esfericidad parcial que estudiamos en el capi'tulo 10, aunque 
existen diferencias porque no exigimos que los componentes especificos tengan igual varianza. 
El contraste se deduce con los mismos principios que estudiamos en el capi'tulo 10. Sea V 0 
el valor de la matriz de varianzas y covarianzas de los datos estimados bajo H 0 . Entonces, 


Factor2 
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y, por tanto, mide la dist-ancia entre V 0 y e S en terminos del determinante, —n log 


SVq 1 


que es el segundo termino de la verosimilitud. 

El contraste rechaza H 0 cuando A sea mayor que el percentil 1 — a de una distribution 
xl con grados de libertad, g. dados por g = dim (II \) — dim ( H 0 ) . La dimension del espacio 


parametrico de Hi es p + 


V 

2 


p(p + l)/2, igual al numero de element-os distintos de V. 


La dimension de H 0 es pm - por la mat-riz A - mas los p element-os de i/>, menos to (to — l)/2 
restricciones resultant-es de la condition que A'i/> 1 A debe ser diagonal. Por tant-o: 


g = p + p(p — l)/2 — pm — p + m(m — l)/2 = (12.28) 

= (1/2) ((p - m) 2 - (p + m)) 


Bartlett (1954) ha demostrado que la aproximacidn asiut-dt-ica de la distribution ;\ /2 mejora 
en muest-ras finit-as int-roduciendo un factor de correction. Con esta modification, el test es 
rechazar H 0 si 


n 


2p + 4m + 5 |AA +-0| 


6 


In 




(12.29) 


Generalmente este contrast-e se aplica secuencialment-e: Se estima el modelo con un valor 
pequeiio, m = m\ (que puede ser m\ — 1) y se contrat-a H 0 . Si se rechaza, se reestima con 
m — mi + 1, continuando hast-a aceptar H 0 . 

Un procedimiento alt-ernat-ivo, propuesto por Joreskog (1993), que funciona mejor ante 
moderadas desviaciones de la normalidad es el siguient-e: calcular el estadi'st-ico (12.29) para 
m = 1, • • • , m max . Sean Xf,... , Aq^ max sus valores y g lt ... , ^ nmax sus grados de libert-ad. 
Calcularemos las diferencias A/ 2 ( — X^ +1 y consideramos estas diferencias como valores de 
una x 2 con g rn — g m + i grados de libert-ad. Si el valor obt-enido es signihcat-ivo aumentamos 
el numero de fact-ores y procedemos asf hast-a que no encontremos una mejora signihcat-iva 
en el ajust-e del modelo. 

El contraste (12.27) admit-e una interesante interpretation. El modelo factorial establece 
que la diferencia entre la matriz de covarianzas, S (p x p). y una mat-riz diagonal de rango 
p. i/ >, es aproximadamente una matriz simetrica de rango m, AA' . es decir: 

S-0 ~ AA'. 


Premultiplicando y postmultiplicando por -0 se obtiene que la matriz A, dada por: 


— — 1 /2 1/2 

A = -0 S - 1, (12.30) 

debe ser asint-bt-icament-e igual a la mat-riz: 

B = ^ 1/2 AA'^ 1/2 , (12.31) 


y t-ener asintoticamente rango m, en lugar de rango p. Se demuestra en el apendice 12.2 
que el contraste (12.27) equivale a comprobar si la matriz A t-iene rango m, lo que debe ser 
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asintoticamente cierto por (12.31), y que el test (12.27) puede escribirse 

v 

A = -n^2 M 1 + d i) (12.32) 

m+1 

donde di son las p — m menores rai'ces caracterist-icas de la matriz A. La hipotesis nula se 
rechaza si A es demasiado grande comparada con la distribution y 2 con ( 1 /2) ( (p— to) 2 -p—m) . 
En el Apendice 12.2 se demuestra que este contraste es un caso particular del contraste de 
verosimilit-ud sobre la esfericidad partial de una matriz que presentamos en 10.6. 

Cuando el tamano muestral es grande y m es pequeno con relation a p. si los dat-os no 
siguen una distribucion normal multivariante el contraste conduce generalmente a rechazar 
//() . Este es un problema frecuente en contraste de hipotesis con muestras grandes, donde 
tendemos a rechazar H 0 . Por tanto, es necesario a la hora de decidir el numero de fact-ores, 
diferenciar entre significat-ividad pract-ica y significat-ividad estadfst-ica, como ocurre en t-odo 
contraste de hipotesis. Este contraste es muy sensible a desviaciones de la normalidad por 
lo que en la pract-ica el estadi'st-ico (12.27) se utiliza como medida de ajust-e del modelo mas 
que como un test formal. 

12.5.2 Criterios de seleccion 

Una alternativa a los contrast-es es plant-ear el problema como uno de selection de modelos. 
Ent-onces estimaremos el modelo factorial para distinto numero de fact-ores, calcularemos la 
funcion soport-e en el maximo para cada modelo y, aplicando el criterio de Akaike, elegiremos 
aquel modelo donde 


AIC(m ) = —2 L(77 0) , n ) + 2 n p 

sea mi'nimo. En esta expresion 27(// 0 m ) es la funcion soporte para el modelo que establece 
m fact-ores particularizada en los est-imadores MV, que viene dada por (12.25), y n p es el 
numero de parametros en el modelo. Observemos que est-a expresion tiene en cuent-a que al 
aumentar m la verosimilitud de L(// 0 . m ) aumenta, o la desviacion --2lAlI{ Lrn ) disminuye, pero 
este efect-o se contrapesa con el numero de parametros que aperece penalizando la relation 
anterior. Este mismo criterio de seleccion puede escribirse como minimizar las diferencias 
AIC(m) — AIC(H i), donde en t-odos los modelos rest-amos la misma cant-idad, AIC (II i), 
que es el valor del AIC para el modelo que supone que no existe estructura factorial y que 
estima la matriz de covarianzas sin restricciones. Ent-onces la funcion a minimizar es 

AIC*(m) = 2(L(Hi) - L{H 0>m )) -2 g = A (m) - 2 g 

donde A (m) es la diferencia de soport-es (12.27), donde en est-a expresion V 0 se est-ima con 
m fact-ores, y (j es el numero de grados de libertad dado por (12.28). 

Un criterio alt-ernat-ivo es el BIC presentado en el capi'tulo 11. Con est-e criterio en lugar 
de penalizar el numero de parametros con 2 lo hacemos con logn. Est-e criterio aplicado a la 
seleccion del modelo factorial mediant-e las diferencias de soport-e es: 


BIC(m ) = A (to) — g logn 
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Ejemplo 12.7 Aplicaremos el metodo de maxima verosimilitud a los datos de INVEST, para 
realizar un contraste sobre el numero de factores. Si basamos el contraste en la expresion 
(12.27) obtenemos la siguiente tabla, 


m 

A 

9m 

p — valor 

AIC 

BIC 


31.1 

20 

0.053 

-8.9 



11.73 

13 

0.55 

-14.27 

-27.84 


6.49 

7 

0.484 

-7.51 

-14.82 

4 

5.27 

2 

0.072 

1.27 

-0,73 


por ejemplo, si m = 1 el numero de grados de libertad es (1/2) ((7) 2 — (9)) = 20. Vemos que 
para a = 0.05 no podem.os rechazar la hipotesis nula de que un factor es suficiente. Sin 
embargo, el criterio de Akaike indica que el mmimo se obtiene con dos factores, y el criterio 
BIC confirma, por poca diferencia, la eleccion de un factor. 

Como el p— valor del contraste anterior esta en el Umite vamos a comparar este test con 
el procedimiento propuesto por Joreskog. El primer paso es utilizar la correccion propuesta 
por Barlet, que realizamos multiplicando los estadisticos Xm P or (n—1 — (2p + 4m + 5)/6)/n. 
Por ejemplo, el estadistico corregido para p = 1 es, 

Xl = ((20 -1- (2 *8 + 4*1 + 5)/6)/20) * 31.1 = 23.06 
en la siguiente tabla presentamos los resultados. 


P 

V 2 

-y2 -y2 

9m 9m -\- 1 

p — valor 

1 

23.06 

14.76 

7 

0.039 

2 

8.30 

3.92 

6 

0.687 

3 

4.38 

1 

5 

0.962 

4 

3.38 





Este metodo indica que rechazamos la hipotesis de un factor, pero no podemos rechazar la 
hipotesis de dos factores, con lo que concluim.os que el numero de factores, escogido con el 
metodo de Joreskog, es igual a dos. Como vem.os, en este ejemplo el criterio de Joreskov 
coindice con el criterio de Akaike 


Ejemplo 12.8 Para los datos EPF de la Encuesta de Presupuestos Familiares del Anexo 
A. 3, aplicaremos la tecnica de analisis factorial con la estimacion maximo verosimil. Los 
datos han sido transformados en logaritmos para mejorar la asimetria, al igual que se hizo 
en el analisis de Componentes Principals presentado en los ejemplos f.2 y f.3. Para este 
analisis tambien hemos estandarizado las observaciones. 


Aceptamos el contraste de un unico factor dado que el p-valor es 0.242. La estimacion de 
los pesos de este factor es aproximadamente una ponderacion con menor peso en los epigrafes 
de alimentacion, vestido y calzado, como se muestra en la tabla 12.5 
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Xi 

x 2 

x 3 

x 4 

x 5 

x 6 

X 7 

x 8 

x 9 

Factor 1 

0.61 

0.64 

0.86 

0.88 

0.82 

0.84 

0.93 

0.89 

0.72 


Tabla 12.5: Vector de cargas de los fact-ores 


12.6 ROTACION DE LOS FACTORES 

Como vimos en la seccion 12.2.3, la matriz de carga no esta identificada ante multiplicaciones 
por matrices ort-ogonales, que equivalen a rot-aciones. En analisis factorial esta definido el 
espacio de las columnas de la matriz de carga, pero cualquier base de est-e espacio puede ser 
una solution. Para elegir entre las posibles soluciones, se tienen en cuenta la interpretation 
de los factores. Intuit ivament-e, sera mas facil interpretar un factor cuando se asocia a un 
bloque de variables observadas. Esto ocurrira si las columnas de la matriz de carga, que 
representan el efect-o de cada factor sobre las variables observadas, contienen valores altos 
para ciert-as variables y pequenos para ot-ras. Esta idea puede plant-earse de distintas formas 
que dan lugar a distintos criterios para definir la rotation. Los coeficient-es de la matriz 
ort-ogonal que define la rotation se obtendran minimizando una funcion objet-ivo que expresa 
la simplicidad deseada en la representation conseguida al rotar. El criterio mas utilizado es 
el Varimax, que exponemos a continuation. 


Criterio Varimax 

La interpretation de los factores se facilit-a si los que afect-an a algunas variables no lo 
hacen a otras y al reves. Este objetivo conduce al criterio de maximizar la varianza de 
los coeficient-es que definen los efect-os de cada factor sobre las variables observadas. Para 
precisar este criterio, llamemos b tJ a los coeficient-es de la matriz de carga asociados al factor 
j en las i = 1, ...,p ecuaciones despues de la rotacion y Sj al vector que es la columna j de 
la matriz de carga despues de la rotation. Se desea, que la varianza de los coeficientes al 
cuadrado de este vector sea maxima. Se t-oman los coeficient-es al cuadrado para prescindir 
de los signos, ya que interesa su valor absoluto. Llamando Sj = Yl^ij/P a me dia de los 
cuadrados de los componentes del vector Sj, la variabilidad para el factor j es: 


1 

P 


£(4 



1 

P 


£4 


(i/rt 2 (£4) 2 - 


(12.33) 


y el criterio es maximizar la suma de las varianzas para t-odos los fact-ores, dada por: 


m p m p 

i = (i/p) £ £ 4 - (Vp) 2 £(£ 44 < 12 - 34 ) 

j = 1 i= 1 j = 1 i= 1 

Sea A la matriz de carga est-imada inicialment-e. El problema es encontrar una matriz 
ort-ogonal M t-al que la matriz <5 dada por 


S = AM, 
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y cuyos coeficientes b, :l viene dados por 

bij = \ m ? 

siendo A) la fila i de la matriz A y rn ? la columna j de la matriz M que buscamos, verifique 
la condicion de que estos coeficiente maximicen (12.34). Los terminos de la matriz M se 
obtendran derivando (12.34) respecto a cada uno de sus terminos m l3 teniendo en cuenta las 
restricciones de ortogonalidad m'rri, = 1; m'm y = 0 {i A j)- El resultado obtenido es la 
rotacion varimax. 

Ejemplo 12.9 Si aplicamos una rotacion varimax a la estimacion MV de los datos de IN- 
VEST del ejemplo 7.6 se obtiene el resultado presentado en la figura 12. j. Esta nueva matriz 


Factorl 


Factor2 


Figura 12.4: Resultado de aplicar una rotacion varimax para los factores de INVES. 

de cargas resulta al multiplicar los coeficientes de la m.atriz ortogonal que definen la rotacion, 
M, por la matriz de cargas obtenida en la estimacion MV y presentada en el ejemplo 12.6 


A 


" 0.95 

0.25 ' 



" 0.71 

0.67 ' 

0.85 

0.08 



0.52 

0.68 

0.92 

0.26 

M 


0.71 

0.64 

0.88 

0.45 


' 0.53 0.85 


0.85 

0.51 

0.93 

0.3 


0.85 -0.53 


0.75 

0.63 

0.86 

0.29 



0.70 

0.58 

0.95 

0.05 



0.55 

0.78 

1 

0 



0.53 

0.85 


12. 7. ESTIMACION DE LOS FACTORES 


381 


Rotaciones oblicuas 

El modelo factorial est-a indeterminado no solo ante rotaciones ortogonales sino ante rota- 
ciones oblicuas. En efecto, como vimos en la section 6.1 el modelo puede establecerse con 
factores incorrelados o correlados. La solucion obtenida de la estimation de A corresponde 
siempre a factores incorrelados, pero podemos preguntarnos si existe una solucion con factores 
correlados que tenga una interpretation mas interesante. Matematicamente esto implica 
definir nuevos factores f* = Hf , donde H es una matriz no singular que puede interpretarse, 
eu general, como un giro oblicuo. La nueva matriz de varianzas y covarianzas de los factores 
sera V} = HH'. 

Existen diversos procedimientos para obtener rotaciones oblicuas, como el Quartmin, 
Oblimax, Promax, etc. que el lector puede consultar en la literatura especializada. El prob- 
lema de las rotaciones oblicuas es que los factores, al estar correlados, no pueden interpretarse 
independientemente. 

12.7 ESTIMACION DE LOS FACTORES 

En muchos problemas el interes del analisis factorial es determinar la matriz de carga, y 
los valores particulares de los factores en los elementos de la muestra no t-ienen interes. Sin 
embargo, en otros casos se desean obtener los valores de las variables factores sobre los 
elementos observados. Existen dos procedimientos para est-imar los factores: el primero, 
debido a Bartlett, supone que el vector de valores de los factores para cada observation es 
un parametro a est-imar. El segundo, supone que son variables aleatorias. Vamos a revisar 
brevemente ambos procedimientos. 

12.7.1 Los factores como parametros 

El vector (p x 1) de valores de las variables en el individuo i. x, , tiene una distribution 
normal con media Af*, donde f, es el vector (m x 1) de factores para el elemento i en la 
muestra, y matriz de covarianzas if), es decir 


Xi ~ N p (Mi, 'll)) 

Los parametros f \ pueden estimarse por maxima verosimilit-ud como se indica en el 
Apendice 12.3. El est-imador resultant-e es el de rm'nimos cuadrados generalizados, dado 
por 

% = (A'^a) 1 A V _1 Xi. (12.35) 

que tiene una clara interpretation intuitiva: si conocemos A, el modelo factorial 

x, ; = Af* + u i 

es un modelo de regresion con variable dependient-e x ?: , variables explicat-ivas las columnas 
de A y parametros f . Como la perturbation, u,. no se distribuye como N(0, 1) sino A r (0, -0), 
t-endremos que utilizar mrnimos cuadrados generalizados, lo que conduce a (12.35). 
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12.7.2 Los fact ores como variables aleatorias 

El segundo metodo es suponer que los factores son variables aleatorias, y buscar un predictor 
lineal que minimice el error cuadrat-ico medio de prediccion. Llamando f \ como antes a los 
valores de los factores en el individuo i y Xj al vector de variables observadas, el vector 
(fj, Xj) tendra una distribucion normal multivariante y el objetivo es encontrar E [fj|xj], Por 
los resultados de la seccion 8.5.1 tenemos que: 

E [fj|xj] = E [fj] + Cov (/j, Xi) Var ( x j) _1 (x* - E (xj)) 

Como E [fj] = 0 y las covarianzas entre los factores y las variables son los terminos de 
la matriz de carga, podemos escribir, suponiendo variables de media cero y los parametros 
conocidos: 


f i = E [fj |xj] = A'V 2 Xj (12.36) 

que es el predictor regresion lineal de los factores sobre los datos. En efecto A' representa 
las covarianzas entre factores y variables y V las covarianzas entre variables. Esta ecuacion 
puede tambien escribirse (vease el Apendice 12.3) como 

fj = (I + AV -1 A) _1 AV _1 Xj. (12.37) 

Comparando (12.35) y (12.36) vemos que este ultimo metodo puede interpretarse como 
una regresion cresta (ridge regression). Supone sumar la unidad a los elementos diagonales 
de la matriz A't/j 'A. Este estimador tiene tambien una interpretacion bayesiana que se 
presenta en el Apendice 12.4. 

Si en las ecuaciones (12.35) y (12.37) sustituimos los valores teoricos por los estimados, 
obtenemos un vector fj que representa la estimation del valor de los m factores en el individuo 
i. Aplicando sucesivamente estas ecuaciones a los n datos muestrales, x 1; ..., x n , obtendremos 
los valores de los factores para los n individuos, fi, ..., f„, donde cada fj es un vector (to x 1). 

Ejemplo 12.10 Con los datos de ACCIONES estimaremos los valores del factor supuesta la 
matriz de carga estimada en ejemplo 12.3 para las variables en logaritmos. Vamos a detallar 
su obtencion para las primeras 5 acciones de dicho ejemplo. La matriz de datos X contendra 
estas 5 observaciones. 


1.22 

4.5 

3.41 

1.63 

4.02 

2.29 

1.5 

3.96 

2.44 

1.25 

3.85 

2.42 

1.77 

3.75 

1.95 


Comencemos por el primer metodo, mmimos cuadrados generalizados. Los estimadores 
de A, ip , obtenidos en el ejemplo 12.3 son, 


' -0.269 ' 

. 1 

' 1.984 

0 

0 

-0.229 

; $ = 

0 

3.834 

0 

0.407 


0 

0 

9.534 
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y aplicando las formulas obtenemos, 


A'V> X A) 1 = 0.5; (k'f) 1 A'f) 1 = 


-0.55 

-1.75 

19.24 


Los 5 primeros valores del primer factor se calculan con f \ = X \ ( A' if A 



> 


' 1.22 4.5 3.41 ' 


' 57.062 ' 

1.63 4.02 2.29 


" -0.55 ' 


36.128 

1.5 3.96 2.44 


-1.75 

= 

39.191 

1.25 3.85 2.42 


19.24 


39.136 

1.77 3.75 1.95 


29.982 


Para estim.ar los valores por el segundo metodo calcularemos : 

(i+A'VTa) 1 = 0.342; (i+A'^a) 1 A 7 $~ 

y los 5 primeros valores del primer factor se calculan con fj = X (i + A'i/> A^ A'-0 , 


' 1.22 4.5 3.41 ' 


' 37.52 ' 

1.63 4.02 2.29 


' -0.36 ' 


23.75 

1.5 3.96 2.44 


-1.15 

= 

25.77 

1.25 3.85 2.42 


12.65 


25.73 

1.77 3.75 1.95 


19.72 


Observem.os que ambas estimaciones presentan la misma estructura, pero el efecto de 
contraccion del segundo metodo hace que los valores obtenidos sean menores. 


-0.36 

-1.15 

12.65 
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Residuos de los factores 

Para contrastar si el modelo es adecuado conviene calcular los factores f y los residuos e y 
estudiar sus propiedades. De acuerdo con las hipotesis: 

u ~ N p (0, ip) 

Por tanto, si la matriz de covarianzas de los residuos no es diagonal debemos aumentar 
el numero de factores hasta que los residuos est-imados: 

Ui = e* = x, ; - A % 

verifiquen las hipotesis. En concret-o, contrastaremos si los residuos tienen una distribucion 
normal. Los residuos pueden indicarnos tambien la presencia de observaciones ati'picas o de 
grupos de observaciones que no se ajustan bien al modelo construido. 
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Ejemplo 12.11 Para los datos de EPF calculamos la matriz de varianzas covarianzas de 
los residuos del modelo estimado en el ejercicio 12 . 8 , donde se estimo un unico factor. 


0.61 

0.13 

- 0.04 

-0.03 

-0.06 

-0.03 

0.02 

- 0.11 

0.05 

0.13 

0.57 

- 0.01 

0.04 

- 0.01 

0.01 

-0.05 

-0.13 

0.04 

- 0.04 

- 0.01 

0.22 

-0.07 

-0.07 

-0.05 

- 0.01 

0.01 

-0.06 

-0.03 

0.04 

-0.07 

0.19 

-0.03 

- 0.01 

-0.05 

-0.03 

0.02 

-0.06 

- 0.01 

-0.07 

-0.03 

0.3 

0 

- 0.02 

- 0.04 

- 0.01 

-0.03 

0.01 

-0.05 

- 0.01 

0 

0.26 

-0.06 

-0.05 

0.1 

0.02 

-0.05 

- 0.01 

-0.05 

- 0.02 

-0.06 

0.1 

- 0.01 

- 0.1 

- 0.11 

-0.13 

0.01 

-0.03 

- 0.04 

-0.05 

- 0.01 

0.18 

-0.05 

0.05 

0.04 

-0.06 

0.02 

- 0.01 

0.1 

- 0.1 

-0.05 

0.45 


En la diagonal figura la varianza especifica, se aprecia que los terminos de fuera de la diagonal 
son relativamente pequenos. Compararemos esta matriz con la resultante de estimar dos 
factores, que en el contraste tiene un p-valor de 0.64, la nueva matriz de varianzas de los 
residuos es: 


0.6 

0.12 

- 0.04 

- 0.04 

-0.07 

-0.06 

0.02 

- 0.1 

0.01 

0.12 

0.53 

0.03 

0.02 

- 0.01 

- 0.04 

- 0.01 

-0.09 

-0.08 

- 0.04 

0.03 

0.22 

- 0.04 

-0.05 

- 0.01 

-0.03 

0.01 

0 

- 0.04 

0.02 

- 0.04 

0.19 

- 0.02 

- 0.04 

- 0.02 

0 

-0.05 

-0.07 

- 0.01 

-0.05 

- 0.02 

0.3 

- 0.01 

- 0.01 

- 0.02 

-0.03 

-0.06 

- 0.04 

- 0.01 

- 0.04 

- 0.01 

0.18 

- 0.01 

- 0.01 

-0.05 

0.02 

- 0.01 

-0.03 

- 0.02 

- 0.01 

- 0.01 

0.03 

- 0.04 

0 

- 0.1 

-0.09 

0.01 

0 

- 0.02 

- 0.01 

- 0.04 

0.19 

0.01 

0.01 

-0.08 

0 

-0.05 

-0.03 

-0.05 

0 

0.01 

0.17 


y la variabilidad especifica ha disminuido en las variables X? y X 9 y fuera de la diagonal, en 
general, los valores son mas pequenos. Se podia incrementar el numero de factores en uno 
mas, pero se corre el peligro de sobreajustar el modelo y que la interpretacion de los pesos 
este demasiado sujeta a los datos en concreto usados. 

En las figuras 12.5 y 12.6 se presentan las cargas de los factores y la representacion de las 
distintas provincias en el espacio formado por estos dos factores. Las cargas del segundo factor 
permiten una interpretacion analoga a la descrita para el segundo componente principal. En 
la figura 12.7 presentamos los histogram, as de las distribuciones marginales de los residuos. 
Algunos de estos histogramas no parecen seguir una distribucion normal. 


Residuos del ajuste 

Se definen los residuos del ajuste como los terminos de S— V. Frecuentemente es mas comodo 
utilizar los residuos estandarizados, donde cada residuo se divide por su desviacion ti'pica 
asintotica. 
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Factorl 



X7 X8 X4 X3 X6 X5 X9 X2 

Factor2 




■ 






X9 X6 X2 X7 X4 X3 X8 XI 


Figura 12.5: Representation de la matriz de cargas de los dos primeros factores estimados 
por maxima verosimilitud. 


Medidas de ajuste del modelo 

Podemos constrnir una medida del ajuste del modelo factorial para cada variable mediante 


v = M = i _ t 

ii 2 

si s : 


que suele denominarse coeficiente de correlation al cuadrado entre la variable y los factores. 
El coeficiente de determination para todo el sistema puede construirse con 


R 2 = 1 - 




i tv 


V 


i /p' 


donde 




es el determinante de la matriz de varianzas residuales y 


V 


el estimado por el 


modelo. 

El estadfstico y 2 dado por (12.27) proporciona otra medida global de ajuste. Para calibrar 
su valor lo compararemos con sus grados de libertad. Cuando los datos no son normales la 
distribution de (12.27) puede desviarse mucho de la y 2 pero, en cualquier caso, su valor 
puede utilizarse como un criterio de ajuste. 


Ejemplo 12.12 Calculamos el coeficiente de correlacion al cuadrado entre la variable y los 
factores para los datos el ejemplo 12.8 en el modelo con dos factores. Como las variables 
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Lugo 


Zamora 


o 

o 

03 _ 

LL O 


Jaen 


Leon 


Huesca 

Avi f= uenca 


Teruel 
Castellon 

Orense 


Toledo 
Murcia 

Soria 

La-R^9° s 
La-Coruna 


Lerida 


g# Baleares 
urias 


AfBaledeia 


Badajoz 

Salamanca 

Ceuta-Melilla 


„ ... Las-Palmas 

Sevill^/ a | enc j a Gerona 

iz m i9° na 

Talaga Guipuzcoa 

Huelva 

Valladolid 

Tenerife 


Navarra 


Vizcaya 


Madrid 


Barcelona 


-2 


-1 0 
Factorl 


Figura 12.6: Representation de las provincias en los dos primeros fact-ores. 

originales estaban estandarizadas, s 2 = 1 para i = 1, . . . ,9, los coeficientes se calculan como 
1 menos la varianza especifica. 




*2 

*3 

X 4 

*5 

*6 

X 7 

*8 

*9 


0.4 

0.47 

0.78 

0.81 

0.7 

0.82 

0.97 

0.81 

0.83 


El coeficiente de determinacion es 


R 2 = 1 


,1.781499 x 1(T 8 


) 1/9 = .652 


0.0002415762 

y vem.os que proporciona un valor promedio de las relaciones de dependencia en el sistema. 


12.9 Analisis Factorial Confirmatorio 

El analisis factorial puede aplicarse como una herramienta exploratoria o como un modelo 
para contrastar t-eon'as. En este segundo caso, el numero de factores se supone conocido a 
priori y se est-ablecen restricciones sobre los element-os de la matriz de carga. Por ejemplo, 
algunos pueden ser cero o iguales entre si. Dada la existencia de informacion adicional, 
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co 






-0.2 0.0 0.2 0.4 0.6 


-1.5 -0.5 0.0 0.5 1.0 1.5 


-0.5 0.0 0.5 1.0 


X7 


X8 


X9 


Figura 12.7: Histograma de las distribuciones marginales de los residuos. 


se supone habitualmente que los factores tienen matriz de varianza y covarianzas V j no 
necesariamente identidad, aunque con restricciones en sus terminos. 

La ecuacion fundamental se convierte en 


V x = AV / A , + '0 


pero ahora las tres matrices desconocidas del sistema, A, Vj y i/j contienen numerosas re- 
stricciones de manera que el numero total de parametros libres, t. verifica 


t < 


V (P + 1) 

2 


para que el modelo este identificado. 

La estimation se realiza por maxima verosimilitud, pero la restriction A't/j ] A =diagonal 
no suele inrponerse si no es necesaria para identificar el modelo. 

Los contrastes de bondad del modelo son analogos a los estudiados, pero ahora el numero 
de grados de libertad sera Ae±11 _ / : _ s iendo t el numero de parametro libres estimados. Sin 
embargo, los efectos de no normalidad son aquf mas graves que cuando estimamos todos los 
parametros, como ocurre en analisis factorial exploratorio. 

Recomendamos que el analisis factorial confirmatorio, se compare siempre con un analisis 
exploratorio para confirmar que el modelo impuesto no esta en contradiction con los datos 
observados. 
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12.10 Relacion con componentes principales 

En componentes principales descomponemos la matriz de varianzas y covarianzas de las X 
como: 

' Ai 0 ■■■ 0 

, 0 A 2 ••• 0 

S = ArA' = [ ai . . . a n ] 

0 0 • • • A n 

Aia' t 

= [ax . . . a n ] ; 

A n a n 

= Aiaja^ + . . . + A n a n a / n 

Si A j = 0 para j < h. podemos reconstruir S con los primeros j componentes. Llamando 
h = Ar 1/2 , tenemos que: 

S = HH'. 

En Analisis factorial descomponemos S como: 

S = AA' + iff, 

y como la matriz ip es diagonal puede recoger las varianzas de las variables, mientras que 
la matriz de carga recoge las covarianzas de las variables. Esta es una diferencia importante 
entre ambos met-odos. El primero trata de explicar las varianzas, mientras que el segundo 
explica las covarianzas o correlaciones. Observemos que si ip ~ 0, es lo mismo tomar m 
componentes principales que estimar m factores. La diferencia es tanto menor cuanto menor 
sea ip. 

Otra forma de estudiar la relacion entre ambos metodos es la siguiente: sea X la matriz 
de datos original y Z la matriz de valores de los componentes. Entonces: 

Z = XA, 

o tambien, como A es ortogonal 

X = ZA', 

que permite reconstruir las variables originales a partir de los componentes. Escribiendo 

X\ CX\\Z\ F ■ ■ ■ F CVmlZm F • • • F OlpmZp 

Xp = cx p \Z\ F ■ ■ ■ F oip m z m F ■ ■ ■ H - otppZp 
con m componentes tenemos: 

X\ = ol\\Z\ + . . . + ati m z m F V\ 



Xp — oip\Z\ + Oi m pZ m F Vp 
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Esta representacion es aparentemente analoga al modelo factorial, ya que v\ estara in- 
correlada con los factores (zi, ..., z m ) al incluir unicament-e las variables (z m+ 1 , ...,z p ) que son 
ort-ogonales a las anteriores. Sin embargo, la diferencia basica es que en el modelo factorial 
los errores de las distintas ecuaciones est-an incorrelados, mientras que en esta representacion 
no lo estaran. En efecto, como (rq, ... v p ) cont-ienen todas las variables comunes (z m+ 1 , ..., z p ) 
estaran correladas. Por esta razon, en general los result-ados de ambos metodos seran distin- 
t-os. 

Estos result-ados indican que si existen m componentes principales que explican una 
proportion muy alt-a de la variabilidad, de manera que la variabilidad espetifica dada pol- 
ios terminos diagonales de sea pequena, el analisis factorial y el analisis de componentes 
principales sobre la matriz de correlaciones seran result-ados similares. Tambien en est-e caso 
la estimation mediant-e el metodo de fact-ores principales conducira a resultados similares al 
de maxima verosimilitud. 

Apart-e de est-as diferencias, ambas tecnicas t-ienen una interpretation diferent-e: en com- 
ponent-es principales tratamos de representar graficamente los dat-os, mientras que en analisis 
factorial suponemos que los fact-ores generan las variables observadas. 

12.11 Lect uras recomendadas 

La mayorfa de los t-extos de analisis multivariante incluyen un capi'tulo de analisis factori- 
al. Buenos textos recomendables para complementar lo aqui expuest-o son Cuadras (1991), 
que present-a una exposition muy det-allada y clara, Jobsou (1992), Johnson and Wichern 
(1998), Mardia et- al (1979), Rechner (1998) y Seber (1984). Present-aciones mas extensas 
se encuentran en Bartholomew y Knott- (1999) y Harman (1980). La estimation maximo 
verosimil se estudia con det-alle en Joreskov (1963) y Lawley y Maxwell (1971), aunque no 
se incluyen met-odos mas modernos de estimation basados en el algoritmo EM o en metodos 
bayesianos. Bartholomew y Knott- (1999) presentan de forma clara la estimation mediant-e 
el algoritmo EM. Otra buena referencia sobre el t-ema es Schafer (1997). Para el tratamiento 
Bayesiano vease O’ Hagan (1994) 

EJERCICIOS 

Ejercicio 12.1 Dado el modelo factorial x = A / + u , donde x = (aq, X 2 , x%, X 4 ) tiene 
media cero y varianzas ( 1,2, 1,7), y donde A = (.8, 1,0, 2)' , y Var(f) = 1, se pide: (1) 
Calcular las covarianzas entre las variables y el factor; (2) Calcular las correlaciones entre 
las variables y el factor; (3) Escribir el modelo como un modelo unifactorial con un factor 
de varianza igual a 5. 

Ejercicio 12.2 Indicar si es posible el siguiente modelo factorial x = A / + u , donde 
x = (xi,x 2 ,x 3 ) tiene media cero y varianzas (3, 1,2), y donde A = (3,0,3)' , y Var(f) = 1. 

Ejercicio 12.3 Dado un modelo factorial con x = (aq, aq, x 3 , aq, x^xq) de media cero y 
A = (AiA 2 ) con Ai = (1,1, 1,0, 0,0)' , y A 2 = (0, 1, 0, 1, 0, 1) y Var(f) = 
escribirlo en forma estandar con la normalizacion A'A = Diagonal 
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Ejercicio 12.4 Demostrar utilizando la relacion fundamental que 

a. Si la varianza especifica es igual a la varianza de una variable, la fila de la matriz de 
carga correspondiente a dicha variable debe tener todos los elementos nulos. 

b. Si la covarianza entre dos variables es cero, las filas correspondientes a estas variables 
en la matriz de carga son ortogonales. 

c. Si las variables estan estandarizadas la correlacion entre las variables i y j es el pro- 
ducto escalar de las filas de la matriz de carga correspondientes a estas variables. 

d. Si las variables estan estandarizadas, la correlacion entre la variable i y el factor j es 
el termino ( ij ) de la matriz de carga. 

Ejercicio 12.5 Demostrar utilizando la relacion fundamental que si las varianzas de los 
componentes especificos son identicos, las columnas de la matriz de carga son vectores propios 
de la matriz de covarianzas, y obtener los valores propios. 

Ejercicio 12.6 Indicar cual sera el numero maxima de factores incorrelados que podemos 
estimar con diez variables. si los factores estan correlados? 

Ejercicio 12.7 Demostrar mediante un ejemplo que con el metodo del factor principal no 
se obtiene la misrna matriz de carga con variables estandarizadas y sin estandarizar. 

Ejercicio 12.8 Se dispone de 20 variables y antes de realizar un analisis factorial se realizan 
componentes principales y se eligen los 5 primeros componentes. A continuacion se realiza 
un analisis factorial sobre estos componentes. ^Cuantos factores esperariamos encontrar? 

Ejercicio 12.9 Demostrar que si cada columna de la matriz de carga tiene un unico ele- 
ment.o no nulo, el modelo factorial no esta identificado. 

Ejercicio 12.10 Demostrar que si rotamos los factores la comunalidad total de cada variable 
no varia. 

Ejercicio 12.11 Si A = (1, 1, 1)' indicar la ecuacion para estimar el valor del factor en 
un individuo si 

a. diag(ip) = p( 1, 1, .., 1), 

b. diag(ip) = (1,2 ,..,p) 

Ejercicio 12.12 Demostrar que en el modelo unifactorial con ip = a 2 I , el determinate de 
V 0 es ((A'A) + cr 2 )(cr 2 ) p_1 . 

Ejercicio 12.13 Demostrar que si todas las variables tienen perturbaciones con la misma 
varianza y ip —ip 0 I, y suponiendo A'A = diagonal = D, las columnas de A son directamente 
vectores propios de la matriz V, con valores propios di + ip 0 , donde di es el termino diagonal 
de D 
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APENDICE 12.1: ESTIMACION MAXIMO- VEROSIMIL DEL 
MODELO FACTORIAL 

La estimation MV de A y if) requiere escribir la ecuacion de verosimilitud con la restriction 
At/j 1 A = D = diagonal, derivarla y obtener las condiciones de primer orden. Este proceso 
conduce al mismo resultado que resolver la ecuacion de estimation por momentos 

S = AA' + xjj (12.38) 

con las restricciones de que A sea (p x to) y A diagonal. Esta segunda condition se sat-isface 
tomando: 

ijj = diag — AA' j . (12.39) 


Supongamos que a partir de un valor initial de A obtenemos la matriz i/> mediante (12.39). 
El nuevo estimador de A debe sat-isfacer aproximadamente la ecuacion S — xjj = A A' . Este 
sistema t-iene p(p + l)/2 ecuaciones y p x to incognitas y en general no t-iene solution unica. 
Para reducirlo a un sistema de p x to ecuaciones post-multipliquemos la ecuacion (12.38) por 

i/j A. Reordenando terminos, se obtiene el sistema de ecuaciones: 

SJ’A = A(AV'A + I) =A(D + I m ) (12.40) 


^-i 

donde I m es la matriz identidad de orden to. Esta ecuacion cuando tjj es conocido pro- 
porciona un sistema no lineal de (p x to) ecuaciones con (p x to) incognitas para obtener A, 

y sugiere que A puede obtenerse a partir de los vectores propios S-0 , pero esta matriz no 

1/2 

es simetrica. Para resolver este problema, premultiplicando por -0 , podemos escribrir 


1/2 ^- 1/2 ,^- 1 / 2 ^ ^ — 1 / 2 ^ 

^ Sip (^ A) = (^ A)(D + I m ) 


(12.41) 


que muestra que podemos obtener -0 

-i/2„^-i/2 


- 1/2 


A como vectores propios 
1 / 2 ^ - 1/2 


S xp , o tambien, de la matriz simetrica ^ 


-I. 


de la matriz simetrica 


Los estimadores MV satisfacen dos propiedades importantes. La primera es 

tr (SV 0 1 ) = p 

que indica que con la distancia de la traza la matriz estimada esta tan cerca como es posible 
de la matriz de covarianzas observada S. En efecto, V 0 = S, entonces tr (SS _1 ) = tr (I p ) = p. 
La segunda es que se obtiene el mismo resultado trabajando con variables estandarizadas o 
sin estandarizar, es decir si estimamos por MV la matriz de carga con las variables originales 
se obtiene el mismo resultado que si (1) estandarizamos las variables restando las medias y 
dividiendo por las desviaciones tipicas , (2) estimamos por MV la matriz de carga, que es 
eutonces la matriz de correlation entre las variables originales y los fact-ores, (3) pasamos 
de esa matriz de correlation a la matriz de covarianzas multiplicando por las desviaciones 
t-f picas de las variables. 
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Demostremos la primera propiedad. Si Vo = ip + AA 7 es la estimacion MV de la matriz 
de covarianzas, entonces (vease la seccion 2.3.4): 

Vq- 1 = + AA') 1 - t/Ga (l m + A 7 $ _ 1 a) A'^/T 1 

y multiplicando por S y tomando trazas : 

tr (SV 0 1 ) = tr (St/A) - tr (St/Aa (I m + D )" 1 A 7 $ _1 ) 

Ut-ilizando la condicion (12.40) 

tr ^SVq x ) = tr (Sip ) — tr i^AA'ip ) 


y, por las propiedades lineales de la traza, 


tr 


SVq 1 


= tr 


S — AA 7 ) ip = tr [diag — AA 7 ) ip 


donde el ultimo paso proviene de que el producto de dos matrices diagonales es diagonal y la 
traza es simplemente la suma de sus element-os diagonales. Por ot-ro lado, la ecuacion (12.39) 
implica 


diag — AA 7 ) ip = I p 

y tomando trazas en esta ecuacion 

tr (SVo 1 ) =tr((S- AA 7 ) ^A) = tr (I p ) = p 

y hemos demostrado que el estimador MV verifica (??). 

Para demostrar la segunda propiedad, supongamos que hacemos la transformation y = 
DX, donde D es cualquier matriz diagonal (por ejemplo, estandarizamos las variables lo que 
equivale a trabajar con R, matriz de correlation, en lugar de con S, matriz de covarianzas). 
Entonces S y = DS , D y ip y = Dip x D. A1 calcular la nueva matriz para obtener los valores 
y vect-ores propios, t-endremos 

^- 1/2 S y -V- 1/2 = (DV> > D)- 1 /2DS > D(DV. 1 D)- 1 /2 

= V ! s,-'C 1/! 


y es identica a la anterior. 

APENDICE: 12.2 CONTRASTES SOBRE EL RANGO DE UNA 
MATRIZ 

En este apendice vamos a demostrar que el contraste sobre el mimero de fact-ores es un 
caso particular del contraste general de esfericidad partial, estudiado en 10.6. Necesitamos 
para ello el Lema siguiente: 
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Lemma 3 \L m — UU'| = |I p — U'U|. Esta igualdad se demuestra aplicando la formula del 
determinante de una matriz particionada a los determinantes de la igualdad 


I m 

u 


'ip 

U' ' 

U' 

i P . 


u 

I m 


Vamos a utilizar este lema para demostrar que el contraste de la razon de verosimili- 

tudes (12.27) tiene en cuenta unicamente los p — m menores valores propios de la matriz 
^-1/2 — 1/2 ^ 

if Sif . Partiendo del est-imador MV de V 0 , tenemos: 


V r 


AA' + if 

$ 


if 


1/2 


- 1/2 


- 1/2 


if AA 'if +1 


if 


1/2 


^,^-l/2^-l/2^ 

A 'if if A + I r; 


Llamando D = A 'if A , se obtiene que, 


Vr 


if 


ID + L 


if Y[(l + dj 


(12.42) 


i= 1 


donde dj es el elemento diagonal j de D. 

Por otro lado, de la estimacion de los parametros por el metodo de MV del apendice 12.1, 

1/2 -~- l /2 

hemos visto en la relacion (12.41), que la matriz if S if — l p tiene m valores propios 
iguales a los terminos diagonales de D. En general esta matriz t-endra rango p. y llamemos 

tambien d, a sus restantes valores propios para i = m + 1, ...,p. En consecuencia, los valores 

— — 1 /2 — — 1 /2 

propios de la matriz if S if seran 1 + di y podemos escribir: 


— — 1 /2 1/2 

if Sif 


= |S|/ 


if 


J^J(1 + di 


(12.43) 


i= 1 


y utilizando (12.42) y (12.43) 


V r 


if 


if 


nr = i ( i +* 


nr=i(i +<k 


n p 


i=m -\- 1 


(1 + di 


con lo que se obtiene finalmente: 


A p = n log 


V r 


| S | = — nlog (1 + di) 


i=m+l 


(12.44) 


y el contraste de verosimilitud depende unicamente de los valores propios mas pequenos de 

— — 1/2 1/2 

la matriz if S if 

Vamos a demostrar ahora que este contrat-e es un caso particular del contraste de esferi- 
cidad partial, present-ado en 10.6, cuyo estadfstico es: 


A ep = n(p — m) log 


V p X 

Z_^i=m+ 1 ^ 
p — m 


-nlog A i 


(12.45) 


i=m -\- 1 
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donde A * son los valores propios de S, y que el estadi'st.ico (12.44) resulta de aplicar este 

— — 1/2 — — 1/2 

contrate a la matriz ip Sip . Si el modelo factorial es correcto, asintoticamente S = 
ip + AA' y pre y postmultiplicando por ip~ x ^ 2 \ 

-0 _1/2 S'0” 1/2 = I + ^- 1/2 AA> _1/2 (12.46) 


que descompone la matriz ip 1/2 Sip 1/2 en una de rango m mas la matriz ident-idad. Como 
los valores propios de esta matriz son 1 + di, tenemos que 


A ep = n(p 


m) log ■ 


Y7i=m+ 1(! + di) 


p — m 


p 

- n log y (14- dP) 

i=m+l 


(12.47) 


queda ahora por demostrar que el primer termino es cero. Tomando trazas en (12.46). 


tr{ip 1//2 S ip 1 ^ 2 )=p + tr{ip l ^ 2 AA’ip 1,/2 ) — p + tr(A'ip A) = p + y dj 

i = 1 

pero tambien, por ser 1+di los valores propios de ip^^Sip -1 ^ 2 , sabemos que tr(ip- 1 ^ 2 Sip~ 1 ^ 2 
YA= i ( 1 + di), e igulando ambos resultados para la traza: 

p m 

y (1 + di) = p + y dj 
2=1 2=1 

de donde resulta 

p 

y di = o 

i=m + 1 

o, lo que es equivalents 


p 

y (1 + di) — p — m. 

2=m+l 


y sustit-uyendo en (12.47) el primer termino se anula y queda unicamente el segundo, con lo 
que obtenemos el contrasts de la razon de verosimilitud. 

APENDICE 12.3 :ESTIMACION DE LOS FACTORES 

Sea Xj el vector (p x 1) en el individuo i. Su funcion de densidad sera: 

/(xi) = W 1/2 (2vr)~ p/2 exp {-l/2(xi - Af^'i/r^x* - Afj)} 

supongamos que ip y A son conocidas y se trata de estimar fj. Ent.onces, la funcion de 
verosimilitud en logaritmos sera: 


L = log f (xj) = K - 1/2 (xj - Af i)'ip x (xi - Afj) 
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donde K es una constant-e. Maximizar L equivale a minimizar: 


M = (x.j - Afj)V X (xi - Afi) 


que es el criterio de im'nimos cuadrados. Entonces: 


M = xfy 1 x i — 2f l / A / i/> x Xj + 1 Af i . 


Derivando respecto a f, e igualando a cero: 


dM 

dp 


0 


-2A> -1 Xi + 2A> _1 Afi 


por tanto 


f, ; = (A 'i/> X A) x Aty x x* 

sust-ituyendo en esta expresion Ay -0 por sus estimadores MV se obtiene el vector f, para 
cada observacion. 

Si el parametro se considera como variable aleatoria, por las propiedades de la esperanza 
conditional 


fi = E [fj| X j] = A / V _1 Xj 


Utilizando que: 

V" 1 = + AA') _1 = - -0 _1 A(I + A'i/j _1 A) _1 A / i/> _1 , 


entonces, 

A'V’ 1 = A'^-A'^I + A'^A)”^' 1 
A'V" 1 = [I - A / '0 _1 A(I + A / i/’ _ 1 A) _1 ]A / '0 _1 
A'V" 1 = (I + A'f^)’ 1 ^- 1 . 

y sustit-uyendo en la expresion de f), se obtiene: 

?j = (I + A / '0~ 1 A)” 1 A / '0 _1 x i . 

APENDICE 12.4: INTERPRETACION BAYESIANA DEL ES- 
TIMADOR DE LOS FACTORES 

El estimador (12.37) tiene una clara interpretation bayesiana. Como a priori, la distribu- 
tion del factor, 7r (f)) , es V(0,I), y la verosimilitud / (x|f, A, -0) es V (Af , i/>), la posterior 
condicionada a los parametros es: 

/ (L x , A ,t/>) = kf (x|f ., A, tf}) it (fi) 

donde k es una constant-e. El exponent-e de la distribution posterior sera: 

(x — Af / -0” 1 (x — Af) + f'f = f' (I + AV _1 A) f- 

2f / A / i/>~ 1 x + x'i/j^x, 


(12.48) 
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y complet-ando el cuadrado, el exponents puede escribirse 


f' (I + AV _1 A) f - 2f' (I + AV _1 A) (I + A' -i /;- 1 A) 1 AV _1 x+ Resto 

es decir 

(f-f) 7 (I + A'^-'A) (f-f) 

donde 

f = E [f | A, *!>] = ( I + A> _1 A) _1 A> _1 x (12.49) 


y 


Var 0 = Var [f |A, ■?/>] = (I + Aty^A) 1 


(12.50) 


Por tanto, el estimador (12.37) puede interpretarse como la media de la distribution a 
posteriori de los factores. Observemos que la condition A'lj) 1 A = diagonal hace que los 
factores sean, a posteriori, condicionalmente independientes. 



Capftulo 13 


ANALISIS DISCRIMINANTE 


13.1 INTRODUCCION 

El problema de discriminacion o clasificacion, que abordaremos en este capftulo, puede 
plantearse de varias formas y aparece en muchas areas de la act-ividad humana: desde la 
diagnosis medica a los sist-emas de concesion de creditos o de reconocimiento de falsas obras 
de arte. El planteamiento estadfstico del problema es el siguiente. Se dispone de un conjunto 
amplio de element-os que pueden venir de dos o mas poblaciones distintas. En cada element-o 
se ha observado una variable aleat-oria p— dimensional x, cuya distribucion se conoce en 
las poblaciones consideradas. Se desea clasificar un nuevo element-o, con valores de las vari- 
ables conocidas, en una de las poblaciones. Por ejemplo, la primera aplicacion del analisis 
discriminante consitio en clasificar los restos de un craneo descubierto en una excavacion 
como humano, utilizando la distribucion de medidas fi'sicas para los craneos humanos y los 
de antropoides. 

El problema de discriminacion aparece en muchas situaciones en que necesitamos clasi- 
ficar element-os con information incomplet-a. Por ejemplo, los sist-emas automat-icos de 
concesion de creditos (credit- scoring) implant-ados en muchas instituciones financieras tienen 
que utilizar variables medibles hoy (ingresos, ant-igiiedad en el trabajo, patrimonio, etc) para 
prever el comportamiento futuro. En ot-ros casos la information podrfa est-ar disponible, pero 
puede requerir destruir el elemento, como en el control de calidad de la resist-encia a la ten- 
sion de unos componentes. Finalmente, en ot-ros casos la information puede ser muy costosa 
de adquirir. En ingenierfa este problema se ha est-udiado con el nombre de reconocimiento 
de patrones (pattern recognition ), para disenar maquinas capaces de clasificar de manera 
aut-omat-ica. Por ejemplo, reconocer voces y sonidos, clasificar billetes o menedas, reconocer 
caract-eres escrit-os en una pant-alla de ordenador o clasificar cartas segun el dist-rito postal. 
Otros ejemplos de aplicaciones del analisis discriminante son: asignar un t-ext-o escrit-o de 
procedencia desconocida a uno de varios aut-ores por las frecuencias de utilizacion de pal- 
abras, asignar una partitura musical o un cuadro a un art-ista, una declaration de impuestos 
como pot-encialment-e defraudadora o no, una empresa como en riesgo de quiebra o no, las 
ensefianzas de un centro como t-eoricas y aplicadas, un pacient-e como enfermo de cancer o 
no, un nuevo metodo de fabrication como eficaz o no. 

Las tecnicas que vamos a estudiar reciben tambien el nombre de clasificacion supervisada, 
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para indicar que conocemos una muestra de elementos bien clasificados que sirve de pauta o 
modelo para la clasificacion de las siguientes observaciones. 

Existen varios enfoques posibles para este problema. El primero, que se presenta en 
este capi'tulo, es el analisis discriminante clasico debido a Fisher, basado en la normalidad 
multivariante de las variables consideradas y que es optimo bajo dicho supuesto. Si todas 
las variables son continuas, es frecuente que aunque los datos originales no sean normales 
es posible transformar las variables para que lo sean, y los metodos de este capi'tulo pueden 
aplicarse a las variables transformadas. Sin embargo, cuando tengamos variables discretas 
y continuas para clasificar, la hipotesis de normalidad multivariante es poco realista, y en el 
capi'tulo siguiente se presentan otros enfoques al problema que pueden funcionar mejor en 
estos casos. 


13.2 CLASIFICACION ENTRE DOS POBLACIONES 

13.2.1 Planteamiento del Problema 

Sean I\ y P 2 dos poblaciones donde tenemos definida una variable aleatoria vectorial, x, p- 
variant-e. Supondremos que x es absolutamente continua y que las funciones de densidad de 
ambas poblaciones, f\ y / 2 , son conocidas. Vamos a estudiar el problema de clasificar un 
nuevo elemento, x 0 , con valores conocidos de las p variables en una de estas poblaciones. 
Si conocemos las probabilidades a priori 7 r 1; 7 t 2 , con ni + 7r 2 — 1, de que el elemento venga 
de cada una de las dos poblaciones, su distribution de probabilidad sera una distribution 
mezclada 


/(x) =7ri/i(x)+7r 2 / 2 (x) 


y una vez observado x 0 podemos calcular las probabilidades a posteriori de que el elemen- 
to haya sido generado por cada una de las dos poblaciones, P(i/x 0 ), con i — 1,2. Estas 
probabilidades se calculan por el teorema de Bayes 


^(l|x 0 ) 


P(xo|l)7Ti 

7TiP(x 0 |l)+7r 2 P(xo|2) 


y co mo P(x 0 |l) = /ifxoJAx,), tenemos que: 


^(1/xo) 


fiM^i 

/i(x 0 )tti + / 2 (x o)7r 2 ’ 


y para la segunda poblacion 


P(2|xo) 


/2(x 0 )7T 2 

/i(x 0 )7Ti + / 2 (x 0 )v r 2 ‘ 


(13.1) 


(13.2) 


Clasificaremos x 0 en la poblacion mas probable a posteriori. Como los denominadores son 
iguales, clasificaremos x 0 en P 2 si: 


^ 2/2 (x 0 ) > 7Ti/i(x 0 ) 
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Si las probabilidades a priori son iguales, la condicion de clasificar en P 2 se reduce a: 

/2(X 0 ) > /l(x 0 ) 

es decir, clasificamos a x 0 en la poblacion mas probable, o donde su verosimilitud es mas 
alt a. 

Consideration de las consecuencias 

En muchos problemas de clasificacion los errores que podemos cometer t-ienen distintas con- 
secuencias que podemos cuantificar. Por ejemplo, si una maquina automatica clasifica equiv- 
ocadamente un billete de 10 euros como de 20, y devuelve el cambio equivocado, el coste de 
clasificacion es de 10 euros. En otros casos estimar el coste puede ser mas complejo: si no 
concedemos un credito que seria devuelto podemos perder un cliente y los ingresos futuros 
que este podrfa generar, mientras que si el credito no se devuelve el coste es la cant-idad 
impagada. Como tercer ejemplo, si clasificamos un proceso productivo como en estado de 
control, el coste de equivocarnos sera una production defectuosa, y si, por error, paramos 
un proceso que funciona adecuadamente, el coste sera el de la parada y revision. 

En general supondremos que las posibles decisiones en el problema son unicamente dos: 
asignar en P 1 o en P 2 . Una regia de decision es una partition del espacio muestral E x (que 
en general sera R p ) en dos regiones A 1 y A 2 = E x — A 1 . tales que: 

si x 0 G A\ =>- d\ (clasificar en Pi), 
si x 0 G A 2 =>■ d 2 (clasificar en P 2 ). 

Si las consecuencias de un error de clasificacion pueden cuantificarse, podemos incluirlas 
en la solution del problema formulandolo como un problema bayesiano de decision. Supong- 
amos que: 

1. las consecuencias asociadas a los errores de clasificacion son, c(2|l) y c(l|2), donde 
c(i\j) es el coste de clasificacion en Pj de una unidad que pertenece a Pj. Estos costes 
se suponen conocidos; 

2. el decisor quiere maximizar su funcion de utilidad y esto equivale a minimizar el coste 
esperado. 

Con estas dos hipotesis la mejor decision es la que minimiza los costes esperados, o 
funciones de perdida de oportunidad, en la terminologi'a de Wald. Los resultados de cada 
decision que se presenta esquematicamente en la figura 13.1. Si clasificamos al elemento en 
el grupo 2 las posibles consecuencias son: 

(a) acertar, con probabilidad P(2|x 0 ), en cuyo caso no hay ningun coste de penalization; 

(b) equivocarnos, con probabilidad P(l|x 0 ), en cuyo caso incurrimos en el coste asociado 
c(2|l). 
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Figura 13.1: Representation de un problema de clasificacion entre dos grupos como un 
problema de decision. 


El coste promedio, o valor esperado, de la decision ”d 2 : clasificar x 0 en P 2 ” sera: 

E(d 2 ) = c(2|l)P(l|x 0 ) + OP(2|x 0 ) = c(2|l)P(l|xo). (13.3) 

Analogamente, el coste esperado de la decision ”d\\ clasificar en el grupo 1” es: 

E(dt) = 0P(l|xo) + c(l|2)P(2|xo) = c(l|2)P(2|x 0 ). (13.4) 

Asignaremos al elemento al grupo 2 si su coste esperado es menor, es decir, utilizando 
(13.1) y (13.2), si: 


/ 2 (x 0 )vr 2 ^ /l(x 0 )7Ti 

cm c (i|2) 

Esta condicion indica que, a igualdad de los otros terminos, clasificaremos en la poblacion 
P 2 si 

(a) su probabilidad a priori es mas alta; 

(b) la verosimilitud de que x 0 provenga de P 2 es mas alta; 

(c) el coste de equivocarnos al clasificarlo en P 2 es mas bajo. 

En el Apendice 13.1 se demuestra que este criterio es equivalente a minimizar la proba- 
bilidad total de error en la clasificacidn. 


(13.5) 
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13.2.2 Poblaciones Normales: Funcion lineal discriminante 

Vamos a aplicar el analisis anterior al caso en que f\ y / 2 son distribuciones normales con 
distintos vectores de medias pero ident-ica matriz de varianzas. Para establecer la regia con 
caracter general supondremos que se desea clasificar un elemento generico x, que si pertenece 
a la poblacion i — 1,2 tiene funcion de densidad: 

/,(x) = exp {4 (x ' - *)} • 

La partition optima, es, de acuerdo con la seccion anterior, clasificar en la poblacion P 2 
si: 


/2(x)7T 2 ^ /l(x)7Ti 
c(2|l) c(l|2) • 


(13.6) 


Como ambos terminos son siempre positivos, tomando logaritmos y sustituyendo /i(x) 
por su expresion, la ecuacion anterior se convierte en: 

-^( X - M 2 ) , V _1 (x - H 2 ) + log > -^(x - M 1 ) / V _1 (x - Ml) + log 

Llamando Df a la distancia de Mahalanobis entre el punto observado, x, y la media de la 
poblacion i: 


Df 


(x-Mi)'V X (x — Mi) 


podemos escribir: 


D *- l °z7W) >Dl -' 06 c(. W) (m) 

y suponiendo iguales los costes y las probabilidades a priori, c(l/2) = c(2/l); 7Ti = 7 t 2 , la 
regia anterior se reduce a: 


Clasificar en 2 si D\ > D\ 


es decir, clasificar la observacion en la poblacion de cuya media este mas proxima, midiendo 
la distancia con la medida de Mahalanobis. Observemos que si las variables x tuvieran 
V = la 2 , la regia equivale a utilizar la distancia euch'dea. La figura 13.2 muest-ra las curvas 
de equidistancia con la distancia de Mahalanobis para dos poblaciones normales con centros 
en el origen y el punto (5,10). 
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Figura 13.2: Curvas de equidistancia con la distancia de Mahalanobis para clasificar 


13.2.3 Interpretacion Geometrica 


La regia general anterior puede escribirse de una forma equivalente que permite interpretar 
geometricamente el metodo de clasificacion utilizado. La ecuacion (13.7) indica que debemos 
calcular la distancia de Mahalanobis, corregirla por el termino correspondiente a las prob- 
abilidades a priori y los costes, y clasificar en el poblacion donde esta distancia modificada 
sea minima. Como las distancias tiene siempre el termino corniln x'V 'x, que no depende 
de la poblacion, podemos eliminarlo de las comparaciones y calcular el indicador 


-m'v 


-i. 


2^V Vi -log 


^ Tj 

VI jY 


que sera una funcion lineal en x y clasificar el individuo en la poblacion donde esta funcion 
sea minima. Esta regia divide el conjunto de valores posibles de x en dos regiones cuya 
frontera viene dada por: 


-MiV x x + ^iV Vi = -V 2 V x x + V 2 - log 

que, conro funcion de x, equivale a: 

(M 2 - Mi)'v-n =( M2 - MO'V - 1 - lo s 3§Si5^7- (O.S) 


Llamando: 


w — V 1 (p 2 ~ Mi) 


(13.9) 
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la frontera puede escribirse como: 


/ /M 2 + M 1 , c( 1|2 )tt 2 

W X = w log ■ 


c(2|1)tti 


(13.10) 


que es la ecuacion de un hiperplano. En el caso particular en que c(1|2)7T2 = c(211)7Ti, 
clasificaremos en P 2 si 


o lo que es equivalents, si 


W X > w 


Ri + P2 


w x 


w / /x 1 > w / /x 2 


w x 


(13.11) 


(13.12) 


Esta ecuacion indica que el procedimiento para clasificar un elemento x 0 puede resumirse 
como sigue: 

(1) calcular el vector w con (13.9); 

(2) construir la variable indicadora discriminante: 

Z = w'x = W\X 1 + .... + WpXp 

que transforma la variable multivariante x en la variable escalar z , que es una com- 
bination lineal de los valores de la variable multivariante con coeficientes dados por el 
vector w; 

(3) calcular el valor de la variable indicadora para el individuo a clasificar, x 0 = (.Xm, ...,x p0 ), 
con z 0 = w'xg y el valor de la variable indicadora para las medias de las poblaciones, 
rrii = w'/Xj. Clasificar en aquella poblacion donde la distancia zq -- m, sea minima. 


En terminos de la variable escalar 2 , como el valor pro medio de z en P, es : 

E(z\Pi) = rrii = w/j.j, * = 1,2 

La regia de decision (13.12) equivale a clasificar en P 2 si: 

\z — mi| > \z — m 2 \ (13.13) 

Esta variable indicadora, z, tiene varianza: 

Var(z) = wVar(x)w = w'Vw = (/x 2 — /x 1 ) / V _1 (/x 2 — /x x ) = D 2 . (13.14) 

y el cuadrado de la distancia escalar entre las medias proyectadas es la distancia de Maha- 
lanobis entre los vectores de medias originales: 


(m 2 - mi) 2 = (w'(/x 2 - /Xi)) 2 = (/x 2 - /x i)'V x (/x 2 - /xi) = D 2 . 


(13.15) 
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Figura 13.3: Representation de la direction optima de proyeccion para discriminar entre las 
dos poblaciones. 

La variable indicadora z puede interpretarse como una proyeccion si estandarizamos el 
vector w. Dividiendo los dos miembros de (13.11) por la norma de w y llamando u al vector 
unitario w/ ||w|| , la regia de clasificacion se convierte en clasificar en P 2 si 


ll'x — U / /i 1 > Vi fJL 2 — u 7 x, 


(13.16) 


donde, al ser u un vector unitario, u'x es simplemente la proyeccion de x en la direction de 
u y u'/x, y u'/x 2 las proyecciones de las medias poblacionales en esa direction. 

En la figura 13.3 se observa que el hiperplano perpendicular a u por el punto medio 
u / (/i 1 + /x 2 )/2 divide el espacio muestral en dos regiones Ai y A 2 que constituyen la partition 
optima buscada. Si c(1|2)7t 2 A c(2 1 1)^! la interpretation es la misma, pero el hiperplano 
frontera se desplaza paralelamente a si mismo, aumentando o disminuyendo la region A 2 . 

La direccion de proyeccion, w = V (/x 2 — /x | ) tiene una clara interpretacion geometrica. 
Consideremos en primer lugar el caso en que las variables estan incorreladas y estandarizadas 
de manera que V = I. Entonces, la direction optima de proyeccion es la definida por /x 2 - /x ( . 
En el caso general, la direction de proyeccion puede calcularse en dos etapas: primero, se 
estandarizan las variables de forma multivariante, para pasar a variables incorreladas con 
varianza unidad; segundo, se proyectan los datos transformados sobre la direction que une 
las medias de las variables estandarizadas. 

En efecto, el calculo de w'x puede escribirse como: 


w'x = [(/x 2 - /xJ'V" 1 / 2 ] (V _1 ^ 2 x) 


donde V ] / ' 2 existe si V es definida positiva. Esta expresion indica que esta operacion equiv- 
ale a: (1) estandarizar las variables x pasando a otras y = V 1//2 x que tienen como matriz 
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de covarianzas la identidad y como vector de medias V ir 2 fi: (2) proyectar las variables 
estandarizadas y sobre la direccion /x 2 (y) — Mi(y) = (m 2 — /x^'V -1 ' 2 . 

La figura 13.4 ilustra algunas direcciones de proyeccion. En (a) y (b) la direccion de las 
linea que une las medias coindice con alguno de los ejes principales de la elipse y por tanto 
la direccion w = V~ 1 (/i 2 — /X] ) coincide con (/x 2 — /x^, ya que este es un vector propio de V, 
y por tanto tambien de V -1 . En (c) la direccion optima es un compromiso entre (/x 2 — /Xi) 
y las direcciones definidas por los vectores propios de V -1 . 


(b) 



Figura 13.4: En los casos (a) y (b) la direccion optima coindice con la linea de medias y con 
los ejes de la elipse. En el caso (c) es un compromiso entre ambos 


13.2.4 Calculo de Probabilidades de error 

La utilidad de la regia de clasificacion depende de los errores esperados. Como la distribucion 
de la variable z = w'x es normal, con media m, = w'/x, y varianza D 2 = (m 2 -rrx i ) 2 , podemos 
calcular las probabilidades de clasificar erroneamente una observacion en cada una de las dos 
poblaciones. En concreto, la probabilidad de una decision erronea cuando x e P\ es: 

P(2|l) = P [z > mi + m2 | 2 es 7V(mi; D) 


y llamando y = (z—rn\ ) / D a una variable aleatoria N( 0, 1), y a su funcion de distribucion: 

'D' 


P(2\1) = P \y> 


m 1 +m 2 _ 

2 Ul 


= 1 - $ 


D J V 2 

Analogamente, la probabilidad de una decision erronea cuando x e P 2 es: 

P(l|2) = p{z < mi + m2 | z es N(m 2 ;D) \ = 
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= P 


mi+m,2 


y < 


m 2 


D 


= $— r- 


D 

~2 


y ambas probabilidades de error son identicas, por la simetrfa de la distribucion normal . 
Podemos concluir que la regal obtenida hace iguales y mnrimas (vease Apendice 13.1) las 
probabilidades de error y que los errores de clasificacion solo dependen de las distancias de 
Mahalanobis entre las medias. 


13.2.5 Probabilidades a posteriori 

El grado de confianza al clasificar una observacion depende de la probabilidad acertar. La 
probabilidad a posteriori de que la observacion pertenezca a la primera poblacion se calcula 
con : 


P{ l|x) 


7p/l(x) = 

7Ti/i(x) + vr 2 / 2 (x) 

7Ti exp {-|(x - /id'y-^x - /id} 

(tti exp {-|(x - //J'V-^x — Mi)} + 7r 2 exp {-|(x - /x 2 )'V- 1 (x - /x 2 )} 


y llamando D\y D\ a las distancias de Mahalanobis entre el punto y cada una de las dos 
medias, esta expresion puede escribirse: 


l + fpxp{-i (Dl-Dl)} 

y solo depende de las probabilidades a priori y de las distancias entre el punto y las medias 
de ambas poblaciones. Observemos que si 7 t 2 /7Ti = 1, cuanto mas alejado esta el punto de la 
primera poblacion, es decir, cuanto mayor sea D\ respecto a _D|, mayor sera el denominador 
y menor sera la probabilidad de que pertenezca a ella, P(l|x), y al contrario. 

Ejemplo 13.1 Se desea clasificar un retrato entre dos posibles pintores. Para ello se miden 
dos variables: la profundidad del trazo y la proporcion que ocupa el retrato sobre la superficie 
del lienzo. Las medias de estas variables para el primer pintor, A, son (2 y .8) y para el 
segundo, B, (2.3 y .7) y las desviaciones tipicas de estas variables son .5 y .1 y la correlacion 
entre estas medidas es .5. La obra a clasificar tiene medidas de estas variables (2.1 y .75). 
Calcular las probabilidades de error. 

Las distancias de Mahalanobis seran, calculando la covarianza como el producto de la 
correlacion por las desviaciones tipicas: 


.25 

.025 " 


' 2.1 - 


.025 

.01 

l 

v75- 

•8 / 


D\ = (2. 1-2, .75 -.8) 


0,52 
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y para la segunda 

.25 .025 

.025 .01 


D% = (2.1 — 2.3, .75 — .7) 


2.1 — 2.3 
.75 - .7 


0,8133 


For tanto, asignaremos la obra al primer pintor. El error esperado de clasificacion con 
esta regia depende de la distancia de Mahalanobis entre las medias que es 


D 2 = (2. -2.3, .8- .7) 


.25 .025 

.025 .01 


2. - 2.3 
.8 - .7 


2,6133 


y D = 1.6166. La probabilidad de equivocarnos es 

1.6166 

P{A/B) = 1 - $( — — ) = 1 - $(.808) = 1 - 0, 8106 = 0, 1894. 

A 


De manera que la clasificacion mediante estas variables no es muy precisa, ya que podemos 
tener un 18,94% de probabilidad de error. Calculemos la probabilidad a posteriori de que 
el cuadro pertenezca al pintor A suponiendo que, a priori, arnbos pintores son igualmente 
probables. 


P(A/x) = = = 0, 5376 

v ' ’ l + exp(-0.5(0, 8133 -0,52) 1.86 

Esta probabilidad indica que al clasificar la obra como perteneciente al pintor A existe 
mucha incertidumbre en la decision, ya que las probabilidades de que pertenezca a cada pintor 
son semejantes (0,5376 y 0,4624). 

13.3 GENERALIZACION PARA VARIAS POBLA- 
CIONES NORMALES 

13.3.1 Planteamiento General 

La generalization de estas ideas para G poblaciones es simple: el objet-ivo es ahora dividir 
el espacio E x en G regiones A t . . . . ,A g ,... , Aq tales que si x pertenece a Ai el punto se 
clasifica en la poblacion P, . Supondremos que los costes de clasificacion son constantes y no 
dependen de la poblacion en que se haya clasificado. Entonces, la region A g vendra definida 
por aquellos puntos con maxima probabilidad de ser generados por P g , es decir donde el 
producto de la probabilidad a priori y la verosimilitud sean maximas: 


Ag = (x G E x \ir g f g (x.) > 7iy ./) ( x ) ; g} (13.17) 

Si las probabilidades a priori son iguales, tt,, = G 1 , V/’ , y las distribuciones f r (x) son 
normales con la misma matriz de varianzas, la condicion (13.17) equivale a calcular la dis- 
tancia de Mahalanobis del punto observado al centro de cada poblacion y clasificarle en 
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la poblacion que haga esta distancia minima. Minimizar las distancias de Mahalanobis 
(x — fi ) V” 1 (x — fiy) equivale, eliminando el termino x'V 'x que aparece en todas las 
ecuaciones, a minimizar el indicador lineal 

L a ( x ) = - 2 MgV' 1 x + fi' g \~ l fi g . (13.18) 

y llamando 

Wy = V- l flg 

la regia es 

inin(w 'gfig - 2w'x) 

Para interpretar esta regia, observemos que la frontera de separacion entre dos pobla- 
ciones, (ij), vendra definida por: 


Aij (x) = Li(x) - Lj(x) = 0 (13.19) 

sust-ituyendo con (13.18) y reordenando los terminos se obtiene: 

Aij(x) = 2(fii - fMjYV^x + ( fi t - + Mj) = 0 

y llamando 

W ij = \~\fii - flj) = w i- w j 

la frontera puede escribirse como: 

w p x = + Mj)- 

Esta ecuaciou admite la misma interpretation como proyeccion que en el caso de dos 
poblaciones. Se const.ruye una direction w y y se proyectan las medias y el punto x que 
tratamos de clasificar sobre esta direction. La region de indiferencia es cuando el punto 
proyectado esta equidistant-e de las medias proyectadas. En otro caso, asignaremos el punto 
a la poblacion de cuya media proyectada este mas proxima. 

Vamos a comprobar que si t-enemos G poblaciones solo necesitamos encontrar 

r = min(G' — 1 ,p) 

direcciones de proyeccion. En primer lugar observemos que, aunque podemos construir 
( 2 ) = G (G - 1) /2 vectores w, ? a partir de las G medias, una vez que t-enemos G — 1 
vectores los demas quedan determinados por est-os. Podemos determinar los G — 1 vectores 
w M ; + i , para i = 1 , ...,G — 1 , y obtener cualquier otro a partir de estas G - 1 direcciones. 
Por ejemplo: 

Wi, i+ 2 = - fl i+2 ) = \-\fJLi - fl i+l ) - y~\fl i+1 - Mi+2) = W M+1 - w i+l,i+2- 
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En conclusion, si p > G — 1, el numero maximo de vectores w que podemos tener es G — 1, 
ya que los demas se deducen de ellos. Cuando p < G — 1, como estos vectores pert-enecen a 
R p el numero maximo de vectores linealmente independientes es p. 

Es importante resaltar que, como es natural, la regia de decision obtenida cumple la 
propiedad transitiva. Por ejemplo, si G = 3, y obtenemos que para un punto (x) 

^i(x) > -D 2 ( x ) 

D l( x ) > D l( x ) 

entonces forzosament-e debemos concluir que D\(pt) > D|(xj y esta sera el resultado que 
obtendremos si calculamos estas distancias, por lo que el analisis es coherente. Ademas, si 
p = 2, cada una de las tres ecuaciones A^-fx) = 0 sera una recta y las tres se cortaran en 
el mismo punto. En efecto, cualquier recta que pase por el punto de corte de las rectas 
A \2 (x) = 0 y A 23 (x) = 0 tiene la expresion 


®i-^i2 ( x ) + a 2 A 23 (x) — 0 

ya que si Xg es el punto de corte como A 12 (x*) = 0, por pertenecer a la primera recta, y 
A 23 (x*) = 0, por pertenecer a la segunda, pertenecera a la combinacidn lineal. Como, segiin 
(13.19), Ai 3 (x) = Li (x) - L 3 (x) = Li (x) - L 2 (x) + L 2 (x) - L 3 (x), t-enemos que: 

A 3 ( x ) = bti 2 (x) + ^23 ( x ) 

y la recta A 13 (x) debe siempre pasar por el punto de corte de las otras dos. 

13.3.2 Procedimiento operativo 

Para ilustrar el procedimiento operativo, supongamos cinco poblaciones con p > 4, con lo 
que existiran cuatro reglas de clasificacion independientes y las demas se deducen de ellas. 
Tenemos dos formas de realizar el analisis. La primera es calcular para las G poblaciones las 
distancias de Mahalanobis (o lo que es equivalente, las proyecciones (13.18)) y clasificar el 
elemento en la mas proxima. La segunda es hacer el analisis comparando las poblaciones dos 
a dos. Supongamos que hemos obtenido de las comparaciones 2 a 2 los siguientes result-ados: 
(/’ > j indica que la poblacion i es preferida a la j, es decir, el punto se encuentra mas 
proximo a la media de la poblacion i que a la de j): 

1 > 2 
2 > 3 

4 > 3 

5 > 4 

Las poblaciones 2, 3 y 4 quedan descart-adas (ya que l>2>3y5>4). La duda no 
resuelt-a se refiere a las poblaciones 1 y 5. Construyendo (a partir de las reglas anteriores) la 
regia para discriminar entre estas dos ultimas poblaciones, supongamos que 
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5 > 1 


y clasificaremos eii la poblacion 5. 

Cuando p < G — 1 cl maximo numero de proyecciones linealmente independientes que 
podemos construir es p, y este sera el maximo numero de variables a definir. Por ejemplo, 
supongamos que p = 2 y G = 5. Podemos definir una direccion de proyeccion cualquiera, 
por ejemplo 


Wl2 = V - fj, 2 ) 

y proyectar todas las medias f/x , , /x 2 • ...,/x 5 ) y el punto x sobre dicha direccion. Entonces, 
clasificaremos el punto en la poblacion de cuya media proyectada esta mas proxima. Ahora 
bien, es posible que sobre esta direccion coincidan las medias proyectadas de varias pobla- 
ciones. Si esto ocurre con, por ejemplo, las /x 4 y /x 5 , resolveremos el problema proyectando 
sobre la direccion definida por otra pareja de poblaciones. 


Ejemplo 13.2 Una maquina que admite monedas realiza tres mediciones de cada moneda 
para determinar su valor: peso fa), espesor fa) y la densidad de estrias en su canto fa). 
Los instrumentos de medicion de estas variables no son muy precisos y se ha comprobado en 
una amplia experimentacion con tres tipos de monedas usadas, Mi, M 2 , M 3 , que las medidas 
se distribuyen norm.almente con medias para cada tipo de moneda dadas por: 


y matriz de covarianzas 


Hi — 20 8 8 

/x 2 = 19.5 7.8 10 
/x 3 = 20.5 8.3 5 



.8 -5 

.25 -.9 
-.9 9 


Indicar como se clasificaria una moneda con medidas (22, 8.5 ,7) y analizar la regia de 
clasificacion. Calcular las probabilidades de error. 

Aparentemente la moneda a clasificar esta m,as proxima a M 3 en las dos primeras coor- 
denadas, pero mas proxima a Mi por x 3 , la densidad de estrias. La variable indicador para 
clasificar entre Mi y M 3 es 

z = (hi — A t 3 )V _1 x = 1.77:ri — 3.31x2 + .98x 3 


la media de esta variable para la primera moneda, Mi , es 1.77 x 20 — 3.31 x 8 + .98 x 8 =16.71 
y para la tercera, M 3 , 1.77 x 20.5 — 3.31 x 8.3 + .98 x 5 =13.65. El punto de corte es la 
media, 15.17. Como para la moneda a clasificar es 


z = 1.77 x 22 - 3.31 x 8.5 + .98 x 7 = 17.61 
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la clasificaremos como M\. Este analisis es equivalente a calcular las distancias de Maha- 
lanobis a cada poblacion que resultan ser D\ = 1.84, = 2.01 y D% = 6.69. Por tanto 

clasificamos primero en Mi, luego en M 2 y finalmente como M 3 . La regia para clasificar 
entre la primera y la segunda es 

z = (hi — /i. 2 )V _1 x = — .93xi + 1.74x2 — .56x3 

de estas dos reglas deducimos inmediatamente la regia para clasificar entre la segunda y 
la tercera, ya que 

(>2 - Ms) v ~ ix = (Mi - Ms) v ~ lx “ (Mi - M 2 )V~ 1 x 

Analicemos ahora las reglas de clasificacion obtenidas. Vamos a expresar la reglas inicial 
para clasificar entre Mi y M 3 para las variables estandarizadas, con lo que se evita el problems 
de las unidades. Llamando x« a las variables divididas por sus desviaciones tipicas x\ = 
Xi/2;x 2 = x 2 /.5, y x 3 = x 3 /3, la regia en variables estandarizadas es 

z = 3.54xi — 1.65x2 + 2.94x 3 


que indica que las variables con mas peso para decidir la clasificacion son la primera y 
la tercera, que son la que tienen mayores coeficientes. Observemos que con variables es- 
tandarizadas la m.atriz de covarianzas es la de correlacion 

1 .8 -.83 ' 

R= .8 1 -.6 

-.83 -.6 1 

El origen de estas correlaciones entre los errores de m.edida es que si la moneda adquiere 
suciedad y aumenta ligeramente su peso, tambien aumenta su espesor y hace mas dificil 
determinar su densidad de estrias. Por eso hay correlaciones positivas entre peso y espesor, 
al aumentar el peso aumenta el espesor, pero negativas con las estrias. Aunque la moneda que 
queremos clasificar tiene mucho peso y espesor, lo que indicaria que pertenece a la clase 3, 
ent.onces la densidad de estrias deberia medirse como baja, ya que hay correlaciones negativas 
entre arnbas medidas, y sin embargo se mide relativamente alia en la moneda. Las tres 
medidas son coherentes con una m.oneda sucia del tipo 1, y por eso se clasifica con facilidad 
en ese grupo. 

Vamos a calcular la probabilidad a posteriori de que la observacion sea de la clase M\. 
Suponiendo que las probabilidades a priori son iguales esta probabilidad sera 

p(1/r ) = exp(— Dl/2) 

l/ 0> exp( — Df/2) + exp(— D|/2) + exp(— H|/2) 

y sustituyendo las distancias de Mahalanobis 


P{ l/zo) 


exp (-1.84/2) 

exp(— 1.84/2) + exp(— 2.01/2) + exp(-6.69/2) 


.50 


y analogamente P( 2/xq) = .46, y P( 3/xq) = .04. 
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Podemos calcular las probabilidades de error de clasificar una m.oneda de cualquier tipo 
en otra clase. Por ejemplo, la probabilidad de clasificar una moneda M 3 con esta regia como 
tipo Mi es 

P(z > 15.17/M13.64, v 7 ^)) = P(y > 15 ' 17 ~ 13 ’ 64 ) = P / y > . 37 ) = .192 

1.75 

como vemos esta probabilidad es bastante alta. Si queremos reducirla hay que aumentar la 
distancia de Mahalanobis entre las medias de los grupos, lo que supone '’aumentar” la m.atriz 
V -1 0 ’’reducir” la matriz V. Por ejemplo, si reducimos a la mitad el error en la medida 
de las estrias introduciendo medidores m.as precisos, pero se mantiene las correlaciones con 
las otras medidas, pasamos a la matriz de covarianzas 


V 2 


4 .8 -2.5 

.8 .25 -.45 

-1 -.2 2.25 


la regia de clasificacion entre la primera y la tercera es ahora 

z = (hi — /j. 3 )V -1 x = 3.44xi — 4 . 57 x 2 + 4.24x 3 


y la distancia de Mahalanobis entre las poblaciones 1 y 3 (monedas Mi y M 3 ) ha pasado 
de 3.01 a 12.38, lo que implica que la probabilidad de error entre estas dos poblaciones ha 
disminuido a 1 — $(V 12.38/2) = 1 — 4>(1.76) = .04 y vemos que la probabilidad de error 
ha disminuido considerablemente. Podemos asi calcular la precision en las medidas que 
necesitariamos para conseguir unas probabilidades de error determinadas. 


13.4 POBLACIONES DESCONOCIDAS. CASO GEN- 
ERAL 

13.4.1 Regia estimada de clasificacion 

Vamos a estudiar como aplicar la teorfa anterior cuando en lugar de trabajar con poblaciones 
disponemos de muestras. Abordaremos directamente el caso de G poblaciones posibles. 
Como caso particular, la discrimination clasica es para G — 2 . La matriz general de datos 
X de dimensiones n x p, (n individuos y p variables), puede considerarse part-icionada ahora 
en G matrices correspondientes a las subpoblaciones. Vamos a llamar x V]g a los elementos 
de estas submatrices, donde i representa el individuo, j la variable y g el grupo o submatriz. 
Llamaremos n g al numero de elementos en el grupo g y el numero total de observations es: 

G 

n = Y_ Z n 9 

9 = 1 

Vamos a llamar x' g al vector fila (lxp) que contiene los p valores de las variables para el 
individuo i en el grupo g, es decir, x' ig = (xa g , ..... x ipg ) . El vector de medias dentro de cada 
clase o subpoblacion sera: 
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= ( 13 - 20 ) 
•t'q - 
y 1=1 

y es un vector columna de dimension p que cont-iene las p medias para las observaciones de 
la clase g. La matriz de varianzas y covarianzas para los elementos de la clase g sera: 


^ = ^TE( Xl 9“Xj)(xij-x 9 )' (13-21) 

'Iq - 

y %=1 

donde hemos dividido por n g — 1 para tener estimaciones centradas de las varianzas y co- 
varianzas. Si suponemos que las G subpoblaciones tienen la misma matriz de varianzas y 
covarianzas, su mejor estimation centrada con todos los datos sera una combination lineal 
de las estimaciones centradas de cada poblacion con peso proportional a su precision. Por 
tanto: 


G 

9=1 


n-G 9 


y llamaremos W a la matriz de sumas de cuadrados dent.ro de las clases que viene dada por: 


W = (n- G)S W (13.22) 

Para obtener las funciones discriminantes utilizaremos x g como estimation de g g . y S u , 
como estimacion de V. En concreto, suponiendo iguales las probabilidades a priori y los 
costes de clasificacibn, clasificaremos al elemento en el grupo que conduzca a un valor mini m o 
de la distancia de Mahalanobis entre el punto x y la media del grupo. Es decir, llamando 
w 9 = S" 1 ^ clasificaremos un nuevo elemento x 0 en aquella poblacion g donde 

min(x 0 - x g ) / S u ; 1 (xo - x ff ) = min w (x 5 - x 0 ) 

9 9 

que equivale a construir las variables indicadoras escalares 

z g,g+ 1 = w ff! g+i x 0 9 = 1, ■■■,G 

donde 

W 5 , g+ 1 = S-^Xg - X 9+1 ) = W g- W 9+1 


y clasificar en g frent-e a. g + 1 si 


z g,g + 1 m g\ < \ z g,g+i m g+ 1| 
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donde m g = w^ +1 x 9 . 

Conviene antes de construir la regia de clasificacion realizar un test de que los grupos son 
realmente distintos, es decir, que no todas las medias /i f/ son iguales. Este contraste puede 
realizarse siguiendo lo expuest-o en la seccion 10.7. En la apendice 13.2 se demuestra que en 
el caso de dos grupos la funcion de discrimination lineal w = S” 1 (x 2 — xi) puede obtenerse 
por regresion, definiendo una variable ficticia que tome los valores cero o uno segun que el 
dato pertenezca a una u otra poblacion. 


13.4.2 Calculo de Probabilidades de error 


El calculo de probabilidades de error podn'a hacerse sustituyendo los parametros descono- 
cidos por los estimados y aplicando las formulas de la section 13.2, pero este metodo no 
es recomendable ya que va a subestimar mucho las probabilidades de error al no tener en 
cuenta la incertidumbre de estimation de los parametros. Un mejor procedimiento, que 
ademas no depende de la hipot-esis de normalidad, es aplicar la funcion discriminante a las 
n observations y clasificarlas. En el caso de 2 grupos, obtendrfamos la tabla: 


Realidad 



Clasificado 



Pi 

P 2 

Pi 

nn 

ni2 

P2 

n 2 i 

n 2 2 


donde n t] es el numero de datos que viniendo de la poblacion i se clasifica en j. El error 
aparente de la regia es: 


n 12 + ti 21 Total mal clasificados 

Error = = . 

n ii + n 2 2 Total bien clasificados 

Este metodo tiende a subestimar las probabilidades de error ya que los mismos dat-os se 
ut-ilizan para estimar los parametros y para evaluar el procedimiento resultant-e. Un proced- 
imiento mejor es clasificar cada elemento con una regia que no se ha construido usandolo. 
Para ello, podemos construir n funciones discriminantes con las n muestras de tamano n — 1 
que resultan al eliminar uno a uno cada elemento de la poblacion y clasificar despues cada 
dato con la regia construida sin el. Este metodo se conoce como validation cruzada y con- 
duce a una mejor estimation del error de clasificacibn. Si el numero de observations es muy 
alto, el cost-e computational de la validation cruzada es alto y una solution mas rapida es 
subdividir la muestra en k grupos iguales y realizar la validation cruzada eliminado en lugar 
de una observation uno de est-os grupos. 

Ejemplo 13.3 Vamos a utilizar los dat-os de MEDIFIS para clasificar personas por su genero 
conocidas las m-edidas fisicas de las variables de la tabla A. 5. Como los datos para toda la 
poblacion de hornbre y mujeres son desconocidos, vamos a t-rabajar con los datos muestrales. 
En la muestra hay 15 mujeres (variable sexo=0) y 12 hombres (sexo=l). 

En el ejemplo 10.2 comprobamos que las medias de las poblaciones de las medidas fisicas 
de hombres y m-ujeres son diferent-es. Las funciones discriminantes w g = S” 1 ^ se indican 
en la tabla adjunt-a 
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est 

pes 

pie 

Ibr 

aes 

dcr 

Irt 

hombres 

-1.30 

-4.4 

20.0 

10.0 

-2.1 

24.4 

-4.4 

mujeres 

-1.0 

-4.4 

17.7 

9.5 

-2.5 

25.1 

-4.7 

diferencia 

-.3 

0 

2.3 

.5 

.4 

-.7 

.3 


La diferencia entre estas dos funciones proporciona la funcion lineal discriminante. Se 
observa que la variable con mayor peso en la discriminacion es la longitud del pie. Para 
interpretar este resultado, la tabla siguiente indica las diferencias estandarizadas entre los 
m.edias de cada variable en ambas poblaciones. Por ejemplo, la diferencia estandarizada 


entre las estaturas 

es ^177.58 - 

161.73)/6.4 

= 2.477 



est 

pes 

pie 

Ibr 

aes 

dcr 

Irt 

dif medias 

15.8 

18.65 

4.83 

7.72 

5.67 

1.36 

4.56 

desv. tipicas 

6.4 

8.8 

1.5 

3.1 

2.9 

1.7 

2.2 

dif. estand. 

2.47 

2.11 

3.18 

2.48 

1.97 

.78 

2.07 


La variable que separa mas ambas poblaciones es la longitud del pie. Como, ademas, 
la longitud del pie esta may correlada con la estatura y la longitud del brazo, conocida la 
longitud del pie estas variables no son tan informativas, lo que explica su bajo peso en la 
funcion discriminante. 

Si aplicamos la funcion discriminante para clasificar los datos muestrales obtenemos un 
porcentaje de exitos del 100%. Todas las observaciones se clasifican bien. Aplicando vali- 
dacion cruzada se obtiene 


Realidad 



Clasificado 



M 

H 

M 

13 

2 

H 

2 

10 


Ejemplo 13.4 que supone una proporcion de aciertos de 23/27—0.852. Las observaciones 
mal clasificadas son las 2, 7, 9, y 18. Vernas que el metodo de validacion cruzada da una 
idea mas realista de la eficacia del procedimiento de clasiftcacion. 


13.5 VARIABLES CANONICAS DISCRIMIN ANTES 

13.5.1 El caso de dos grupos 

La funcion lineal discriminante para dos grupos fue deducida por primera vez por Fisher por 
un razonamiento intuitivo que vamos a resumir brevemente. El criterio propuesto por Fisher 
es encontrar una variable escalar: 


z = ox (13.23) 

tal que maximice la dist-ancia entre las medias proyectadas con relacion a la variabilidad 
resultante en la proyeccion. Intuitivamente, la escala z permitira separar lo mas posible 
ambos grupos. 

La media de la variable z en el grupo 1, que es la proyeccion del vector de medias sobre 
la direction de a, es fhi = a'xi, y la media en el grupo 2 es m 2 = a'x 2 . La varianza de 
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la variable z sera la misma en ambos grupos, a'Va , y la estimaremos con si = ex! S w ol. Se 
desea escoger a de manera que la separacion entre las medias mi y m 2 sea maxima. Una 
medida adimensional de esta separacion es: 


y esta expresion es equivalents a: 



(q^(x2 - xi)) 2 

a'SLa 


(13.24) 


En esta relacion ol representa una direccion, ya que 0 es invariante ante multiplicaciones 
de cx por una constants: si (3 — pet , 0(/3) = 0(a). Para encontrar la direccion ex que 
maximice 0, derivando (13.24) e igualando a cero: 


dtp _ _ 2a' (x 2 - xi)(x 2 - yLi)’ex'S w ex - 2 S w ct (a'(x 2 - x0) 2 

da ( a'S w a ) 2 


que escribiremos: 


(x 2 - xi)a'S w a = S w a (a'(x 2 - x0) 


o tambien 


que resulta en 


(x 2 - xi) = S w a- 


a'(x 2 - xi)) 
a'S w a 


a = A S w 1 (x 2 - x : ) 


donde A = (a'S^a)/a'(x 2 — xx). Como, dada a, A es una constante y la funcion a optimizar 
es invariante ante constantes, podemos tomar a normalizado para que A = 1, con lo que 
resulta: 


a = S w 1 (x 2 xi) (13.25) 

que es la direccion w de proyeccion que hemos encout-rado en la seccion anterior. Ademas: 

a'S w a = (x 2 — xi)'S w _1 (x 2 - x : ) = L> 2 (x 2 ,xi) = (m 2 - mi) 2 

y la varianza de la variable resultante de la proyeccion es la distancia de Mahalanobis entre 
las medias. Tambien: 

a'(x 2 -x0 = (x 2 — x 1 )'S w _1 (x 2 - Xi) = U 2 (x 2 ,xi) 

y comparando con (13.24) vemos que 0 es la distancia de Mahalanobis entre las medias. 
El procedimiento obtenido conduce a buscar una direccion de proyeccion que maximice la 
distancia de Mahalanobis entre los centros de ambas poblaciones. Observemos que si S,„.= I 
la distancia de Mahalanobis se reduce a la euch'dea y la direccion de proyeccion es paralela 
al vector que uue ambas medias. Finalmente, observemos que esta regia se ha obtenido sin 
imponer ninguna hipotesis sobre la distribucion de la variable x en las poblaciones. 
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13.5.2 Varios Grupos 

El enfoque de Fisher puede generalizarse para encontrar variables canonicas que tengan max- 
imo poder discriminante para clasificar nuevos elementos entre G poblaciones. El objet-ivo 
es, en lugar de trabajar con las p variables originales x, definir un vector z = (z \ . ..., z r )' de 
r variables canonicas, donde r = min(G — 1 ,p), que se obtengan como combinacion lineal 
de las originales, Zi = u'x, y que permitan resolver el problema de clasificacion de la forma 
siguiente: 

(1) Proyectamos las medias de las variables en los grupos, x 9 , sobre el espacio determi- 
nado por las r variables canonicas. Sean z 1} ...,z g las variables r x 1 cuyas coordenadas son 
estas proyecciones. 

(2) Proyectamos el punto x 0 a clasificar y sea z 0 su proyeccion sobre dicho espacio. 

(3) Clasificamos el punto en aquella poblacion de cuya media se encuentre mas proxima. 
Las distancias se miden con la distancia euch'dea en el espacio de las variables canonicas z. 
Es decir, clasificaremos en la poblacion i si: 

(z 0 - Zj)'(z 0 - Z i) = min(z 0 - z 9 )'(z 0 - z g ) 

9 

Con varios grupos la separacion entre las medias la mediremos por el cociente entre la 
variabilidad entre grupos, o variabilidad explicada por los grupos, y la variabilidad dentro de 
los grupos, o no explicada o residual. Este es el criterio habitual para comparar varias medias 
en el analisis de la varianza y conduce al estadi'stico F de Fisher. Para obtener las variables 
canonicas discriminantes comenzamos buscando un vector Uj , de norma uno, t-al que los 
grupos de puntos proyectados sobre el tengan separacion relat-iva maxima. La proyeccion de 
la media de las observaciones del grupo g en esta direccion sera la variable escalar: 

Zg = u;x 9 

y la proyeccion de la media para todos los datos sera: 

Zt = U^Xt 

donde xr es el vector pxl que cont-iene las medias de las p variables para las n observaciones 
de la muestra uniendo todos los grupos. Tomando como medida de la distancia entre las 
medias de los grupos proyectadas z\, ...,z g su variacion total dada por Y^=\ n g(^g ~ ^t) 2 , y 
comparando esta cant-idad con la variabilidad dentro de los grupos, dada por ^ ^ ( z UJ ~z g ) 2 , 
la separacion relat-iva entre las medias, vendra dada por el estadi'stico : 

, = Y,n g {z g -z T ) 2 

9 EE(%-^) 2 ' 

y si todos los datos provienen de la misma poblacion y no exist-en grupos distintos esta 
variable se distribuye como una F con G - 1 y n — G + 1 grados delibert-ad. Vamos a 
expresar este criterio en funcion de los datos originales. La suma de cuadrados dentro de 
grupos, o variabilidad no explicada, para los puntos proyectados, es: 

n g G n g G 

VNE = J2 - * 9 ? = J2 u '(*i 9 “ x 9 )(x i9 - X 9 )'u = uWu 

j = 1 9=1 3 = 1 9=1 
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donde W esta dada por 


n g G 

W = _ - *»)' 
3 = 1 9=1 


que coincide con (13.22). Esta matriz tiene dimensiones p x p y tendra, en general, rango p. 
suponiendo n — G > p. Estima la variabilidad de los datos respecto a sus medias de grupo, 
que es la misma, por hipotesis, en todos ellos. 

La suma de cuadrados entre grupos, o variabilidad explicada, para los punt-os proyectados 
es: 

G 

VE = ^ng{z g -^T) 2 = (13.26) 

9=1 

= ^2 n g u'(x g - x T ) (x g - x T )'u = 

= u'Bu 


siendo B la matriz de suma de cuadrados entre grupos, que puede escribirse: 


G 

B = '"^^9 

9=1 


siendo a s = x g — xt- La matriz B es cuadrada p x p y simetrica y se obtiene como suma de 
G matrices de rango uno formadas por los vect-ores a g , que no son independientes, ya que 
estan ligados por la relacion J2 g =i n g a g = 0,que implica que el rango de B sera G — 1. 

En resumen, la matriz W mide las diferencias dentro de grupos y la B las diferencias 
entre grupos. La cantidad a maximizar puede tambien escribirse: 


u'jBuj 

u'jWuj ’ 


(13.27) 


derivando e igualando a cero de la forma habitual: 


dcj) 2Bu 1 (u' 1 Wu 1 ) - 2(u' 1 Bu 1 )Wu 1 

du\ ^ (u'jWu!) 2 


ent-onces: 


es decir, por 


Brq = Wu! 


/ u;b U i \ 

yu'jWui ) 


Bui = 0Wui 

y suponiendo W no singular: 

W _1 Bui = <p\ii 
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que implica que ui debe de ser un vector propio de W 1 B y entonces (j) es su valor propio 
asociado. Como queremos maximizar (j), que es el valor del estadi'stico F eii un contrate 
escalar sobre las medias proyectadas, u sera el vector propio asociado al mayor valor propio 
de la matriz W X B. 

Podemos plantearnos obtener un segundo eje t-al que maximice la separacion (j>, pero con 
la condicion de que la nueva variable canonica z 2 = u' 2 x este incorrelada con la primera, z\ = 
u)x. Puede demostrarse analogament-e que esto ocurre si tomamos el segundo vector propio 
(ligado al segundo valor propio) de la matriz W -1 B. En general, sean a i , ... , a r los valores 
propios no nulos de W 1 B yu lr .. , u, los vectores propios ligados a los valores propios no 
nulos. Las variables escalares z 3 = u'x ordenadas por los valores propios oq > a 2 > . . . > a r 
proporcionan maxima separacion en el sentido de que el estadi'stico F para contrastar si 
existeu diferencias entre los G grupos proyectados tiene un valor igual a a. . Ademas, estas 
variables escalares z 3 estan incorreladas, tanto dentro de grupos como en toda la muestra. 
Para comprobarlo sea z ? el vector n x 1 resultado de proyectar los punt-os muestrales en la 
direction u'-, es decir, z 3 = Xu, . Est-a variable tendra media. T~ } = l'z j/n = l'Xuj/n = T' t u :/ 
y la covarianza entre dos variables escalares, z 3 y Zh vendra dada por 

^ n i n 

cov^Zj, z h ) = - yu 3l - Zj)(z hi - z,,) - V u'dxj - X T )(Xj - x r )'u/, 

n z — n z J 

i = 1 i= 1 

y llamando T a la matriz de suma de cuadrados t-ot-ales la covarianzas entre las variables 
canonicas son u'Tu/,. Si descomponemos estas variables en grupos, de manera que cada vari- 
able z j da lugar a G variables z 3g donde g iudica el grupo, puede comprobarse analogament.e 
que las covarianzas entre z 3g y Zh g , sumadas para t-odos los grupos vienen dadas por u'Wuj,. 
Vamos a demostrar que, para dos vectores propios dist.intos, h ^ j: 

UftWuj = u h Tu 3 = 0, 


donde T = W + B. 

Comprobemos esta propiedad. Supongamos que «/, > a 3 . Los vectores propios de W 1 B 
verifican que 


(W 1 B)u h = a h u h 


es decir 


Bu h = a h Wu h . 


(13.28) 


Por tanto, para otro vector propio distinto Uj, donde a/, ^ a 3 , tenemos: 

Buj = ctjWuj 

multiplicando (13.28) por u' y (13.29) por u' h : 

u'Bu ft = a h u 3 Wu h 
u h Bu t = a 3 u h Wu 3 


(13.29) 
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Como los primeros miembros son iguales, los segundos deben de serlo y al ser a/, A a j ■ 
forzosamente u'Wu/, = 0 = ii'Bu/, = u'Tu/,. 

Observemos que los vectores propios de la matriz W 1 B no seran, en general, ortogonales 
ya que aunque las matrices W _l y B son simetricas, su producto no necesariamente lo es. 
Ademas, el rango de esta matriz, W 1 B. sera r = min(p, G — 1), (recordemos que el rango 
del producto de dos matrices es menor o igual que el de las originales) y est-e es el maximo 
numero de factores discriminantes que podemos obtener. 

La matriz W 1 B ha sido llamada por Rao matriz de distancias de Mahalanobis gener- 
alizada, ya que su traza es la suma de las distancias de Mahalanobis entre la media de cada 
grupo y la media total. En efecto, tenemos que 

ir(W _1 B) = tr - x r )'(W/n 9 )" 1 (x 9 - x T ) 

13.5.3 Variables canonicas discriminantes 

Est-e procedimiento proporciona r = rriiriip. G — 1) variables canonicas discriminantes que 
vienen dadas por 


z = U' r x (13.30) 

donde U r es una matriz p X r que cont-iene en columnas los vectores propios de W 'B y x un 
vector p x 1. El vector r x 1, z, recoge los valores de las variables canonicas para el elemento 
x, que son las coordenadas del punto en el espacio definido por las variables canonicas. 

Las variables canonicas asf obtenidas resuelven el problema de clasificacion. En efecto, 
para clasificar un nuevo individuo x 0 basta calcular sus coordenadas z 0 con (13.30) y asignarlo 
al grupo de cuya media transformada est-e mas proxima con la dist-ancia euch'dea. 

Un problema importante es investigar cuant-as dimensiones necesitamos para la discrimi- 
liacion, ya que es posible que la mayon'a de la capacidad de separacion de las poblaciones se 
consiga con las primeras variables canonicas. Para estudiar est-e problema supongamos que 
los vectores propios de W 1 B en vez de tomarlos con norma unidad, iq.los estandarizamos 
con Vj = u,/ n'Wu, 1/2 de manera que est-os vectores v, sigan siendo vectores propios de 
W B pero ahora verifican v'Wv, = 1. Entonces, la variabilidad explicada por la variable 
canonica v* es, por (13.26), 


VE(vi) = v'Bvj 

pero al ser v, un vector propio de W 1 B verifica 

Bvj = ttjWvj 

y multiplicando por v' y teniendo en cuenta que por construccion v'Wv, = 1 : 

VEiyi) = v'Bvj = a.i, 

que indica que la variabilidad explicada por la variable canonica v, es igual a su valor propio 
asociado. Por tant-o, los valores propios de W -1 B estandarizados para que v'Wv* = 1 nos 
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indican la variabilidad explicada que cada variable canonica aporta al problema de discrim- 
ination. Cuando p y G son grandes es frecuente que la mayor capacidad de discrimination 
se consiga con unas pocas variables canonicas. 

Los resultados de clasificacidn que se obtienen con las variables canonicas son identicos 
a los obtenidos con la distancia de Mahalanobis (vease Hernandez y Velilla, 2001, para un 
estudio completo de este problema). Esto es inmediato de comprobar si G — 2, caso de dos 
poblaciones, o cuando las medias sean colineales. En ambos casos la matriz B t-iene rango 
uno y el vector propio de W 'B unido al valor propio no nulo proporciona automaticamente 
la funcion lineal discriminante de Fisher. Para comprobarlo basta notar que si G = 2 la. 
matriz B es: 

B = nin ‘ 2 (x t - X 2 )(Xi - x 2 y 
ri! + n 2 

y el vector propio asociado al valor propio no nulo de W 'B es W 1 (x | — x 2 ), que ya 
obtuvimos anteriormente. Si las medias de las G poblaciones est-an en una li'nea recta, 
entonces: 


(xi - x T ) = pr(x 2 - x T ) = ... = kj{xg - x T ) = c(x x - x 2 ) 

y la matriz B puede escribirse 

G 

B = - x t )(x 9 - x T )' = fc*(x i - x 2 )(xi - x 2 )' 

9=1 

y su vector propio asociado al valor propio no nulo de W 1 B es proportional a W 1 (x i — x 2 ). 

Ejemplo 13.5 Vam.os a estudiar la discrimination geografica entre los paises del mundo del 
banco de datos MUNDODES. Los 91 paises incluidos se han clasificado a priori como del 
este de Europa (9 paises, clave 1), America central y del sur (12 paises, clave 2), Europa 
Occidental mas Canada y EEUU (18 paises, clave 3), Asia (25 paises, clave 4) y Africa (27 
paises, clave 5). La variable PNB se ha expresado en logaritmos neperianos, de acuerdo con 
los resultados descriptivos que obtuvimos en el capitulo 3. 

Se presenta la salida del programa SPSS para la discrimination multiple que proporciona 
los resultados del analisis discriminante utilizando las variables canonicas 
Las medias de los cinco grupos en cada variable son: 

G TN TM MI EH EM LPNB 

1 15.15 10.52 18.14 67.35 7 4.94 7.48 

2 29.17 9. 416 51.32 62.70 68.53 7.25 

3 13.01 9.583 8.044 71.25 77.97 9.73 

4 30.31 8.072 56.488 63.08 65.86 7.46 

5 44.52 14.622 99.792 50.63 54. 14 6.19 
Total 29.46 10.734 55.281 61.38 66.03 7.51 

y la columna total indica las medias para el conjunto de los datos. 

Las desviaciones tipicas en los grupos son: 

G TN TM MI EH EM LPNB " 
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1 3.97 2.16 6.97 2.22 1.50 48 

2 7.38 5.51 31.69 4.92 5.31 .66 

3 1.85 1.37 1.734 2.51 2.18 44 

4 10.01 3.77 4 6.02 7.92 9.73 1.69 

5 5.685 4.79 30.58 7.09 7.03 1.04 
Total 13.69 4.68 46.30 9.72 11.13 1.64 

y la matriz W con 86 grados de libertad es 

TN TM MI EH EM LPNB 

TN 46.90 

TM 11.89 15.63 

MI 13941 8749 1007.64 

EH -2742 -18.76 -169.71 37.55 

EM -31.88 -21.08 -194.29 40.52 46.20 

LPNB -3.54 -2.18 -2242 4. 60 543 1.25 

que podemos expresar como matriz de correlaciones: 

TN TM MI EH EM LPNB 

TN 1.00000 

TM 43930 1.00000 

MI .64128 .69719 1.00000 

EH -.65345 -.77451 -.87247 1.00000 

EM -.68487 -.78452 -.90052 .97278 1.00000 

LPNB -.46341 -.49350 -.63275 .67245 .71588 1.00000 

Las funciones de clasificacion lineales para cada grupo son: 

G = 1 2 3 4 5 

TN 3.4340 3.7363 3.3751 3.6194 3.9314 

TM 9.7586 9.1856 9.6773 8.6879 8.9848 

MI 1.7345 1.7511 1.7387 1.7107 1.6772 

EH -.1319 .28153 .7638 1.7363 .59934 

EM 16.962 16. 3425 15.780 U.347 15.342 

LPNB -9.422 -8.2661 -5.999 -6.703 -7.053 

(Constante) -690.658 -683.135 -690.227-642.071 -647.1495 

y los valores propios de W~ x B y la proporcion de variacion explicada son: 

Fen Val. pr. Var. % 

1* 3.9309 69.33 69.33 
2* 1.1706 20.65 89.97 
3* .4885 8.62 98.59 

4* .0802 I.4I 100.00 

Se observa que la primera funcion discriminante 0 variable canonica, definida por el 
primer vector propio de la matriz W _1 B explica el 69% de la variabilidad y que las dos 
primeras explican conjuntamente el 89,97%. 

Los coeftcientes de las variables canonicas indican que las variable mas important.es son 
globalmente la esperanza de vida de la m.ujer y la tasa de nat.alidad. 
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funciones discriminantes canonicas 



Certroides ctegip) 
Crap 5 
Crap 4 
Crap 3 
Gto_p2 
Grapl 


Rimera Variable canonica 


Figura 13.5: Grafico de proyeccion de los puntos sobre las dos primeras variables canonicas. 

En el grafico pueden verse las proyecciones de los paises sobre las dos primeras variables 
canonicas. Los resultados de la clasificacion con las 4 variables canonicas se resumen en 
siguiente tabla, donde r representa la clasificacion real y p la previsa por el modelo. 
pi p2 p3 pA p5 

rl 8 1 

r2 1 9 1 1 

r3 18 

r4 2 2 19 2 

r5 1 4 22 

Se observa que se clasifican bien los paises europeos y entre los asiaticos es donde aparece 
mas variabilidad. 

En este caso los errores aparentes obtenidos clasificando con la distancia de Mahalanobis 
(sin validacion cruzada) y con las variables canonicas son los mismos. La salida adjunta 
de MINITAB incluye la informacion basica. En primer lugar se presenta el resultado de 
clasificar con las funciones discriminantes: 

True Group.... 

Group 1 2 3 4 5 
181000 
219021 

3 0 1 18 2 0 

4 0 0 0 19 4 

5 0 1 0 222 

N Total 9 12 18 25 21 

N Correct 8 9 18 19 22 

Propor. 0.89 0.15 1.0 0.16 0.82 

N = 91 N Correct = 16 Proportion Correct = 0.835 

y a continuacion el resultado aplicando validacion cruzada: 

Colorado Verdadero grupo 
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Group 1 2 3 4 5 
181100 
2 1 8 0 4 1 

3 0 1 17 2 0 

4 0 1 0 16 5 

5 0 1 0 3 21 

N. Total 9 12 18 25 27 

N Correct 8 8 17 16 21 

Propor. 0.89 0.67 0.94 0.64 0.78 

N = 91 N Correct = 70 Propor. Correct = 0.769 

funciones lineales discriminantes 

1 234 5 

Con. -689.05 -681.53 -688.62 - 64 O .46 -645.54 

C2 3.43 3.74 3.38 3.62 3.93 

C3 9.76 9.19 9.68 8.69 8.98 

C4 1.73 1.75 1.74 1.71 1.68 

C5 -0.13 0.28 0.76 1.74 0.60 

C6 16.96 16. 34 15.78 14.35 15.34 

C9 -9.42 -8.27 -6.00 -6.70 -7.05 

La tabla siguiente resume los resultados con validacion cruzada. 

pi p2 p3 pA p5 

rl 8 1 

r2 1 8 1 1 1 

r3 1 17 

r4 4 2 16 3 

r5 1 5 21 

Finalmente la matriz de distancias entre las medias de los grupos con la distancia de 
Mahalanobis es 


EO( 1) 

AL(2) 

E( 3) 

AS {4) 

AF(5) 

EO{ 1) 

7.2 

7.8 

20.3 

25.2 

AL(2) 


10.9 

6.5 

7.6 

m 



15.4 

30.0 

AS( 4) 




1.9 


AF{ 5) 

Se observa que la mayor distancia aparece entre el grupo E (que incluye los paises de 
europa occidental mas Canada y EEUU) y Africa. La segunda es entre EO y Africa. La 
distancia menor es entre Asia y Africa. 


13.6 DISCRIMINACION CUADRATICA. DISCRIM- 
INACION DE POBLACIONES NO NORMALES 


Si admitiendo la normalidad de las observaciones la hipotesis de igualdad de varianzas no 
fuese admisible, el procedimiento de resolver el problema es clasificar la observation en el 
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grupo con maxima probabilidades a posteriori. Esto equivale a clasificar la observation x 0 
en la grupo donde se minimice la funcion : 


min - log I V,- Id — (x 0 

je(i,...,G) 2 &l 2 V ° 


Rj)'^j x ( x o 


Rj) - 


Cuando Vj y /x • son desconocidos se est.iman por S y y x ? de la forma habitual. Ahora el 
termino x 0 / Vj" 1 x 0 no puede anularse, al depender del grupo, y las funciones discriminantes 
no son lineales y tendran un termino de segundo grado. Suponiendo que los costes de 
clasificacion son iguales en todos los grupos, clasificaremos nuevas observaciones con la regia 


min - log |Vj| + -(x 0 
je(i,...,G) Z Z 


WVj x ( x o 


Rj) ~ 


En el caso particular de dos poblaciones y suponiendo las mismas probabilidades a priori 
clasificaremos una nueva observation en la poblacion 2 si 

log |Vi| -f (xo - mO'VT^x o - /xO > log |V 2 | + (xo - ^ 2 )'V 2 ' 1 (xo - fX 2 ) 

que equivale a 


donde c 


x'oivr 1 - V 2 1 )x 0 - 2x'(Vr 1 M 1 - v 2 ^ 2 ) > C 
log(|V 2 |/|Vi|) d- R 2 V 2 l R 2 ~ Ri'Vi'Ri- Llamando 

V ,” 1 = (Vfi 1 - V 2 x ) 


(13.31) 


y 


R d = V^vr 1 ^! - v 2 ^2) 


y definiendo las nuevas variables 

At- 1 / 2 

z 0 = \ d x 0 

y llamando z 0 = (zoi , ..., zo p y y definiendo el vector m= (mi, ..., m p )' = Vy 2 (Vfi 1 /i 1 — 
V 2 1 /x 2 ), la ecuacion (13.31) puede escribirse 

v p 

Z 0i ~ 2 ZQiTn i > C 

i= 1 i= 1 

Esta es una ecuacion de segundo grado en las nuevas variables z 0i . Las regiones resultantes 
con estas funciones de segundo grado son tfpicamente disjuntas y a veces difitiles de interpre- 
tar en varias dimensiones. Por ejemplo, la figura (13.6) muestra un ejemplo unidimensional 
del tipo de regiones que se obt-ienen con la discrimination cuadrat-ica. 



426 


CAPITULO 13. ANALISIS DISCRJMINANTE 


Figura 13.6: Ejemplo de discrimination cuadratica. La zona de clasificacion de PI es la zona 
central y la de P2 la de las colas 

El numero de parametros a estimar en el caso cuadrat-ico es mucho mayor que en el 
caso lineal. En el caso lineal hay que estimar Gp + pip + l)/2 y en el caso cuadrat-ico 
G(p+p(p+ 1)/2) . Por ejemplo con 10 variables y 4 grupos pasamos de estimar 95 parametros 
en el caso lineal a 260 en el caso cuadrat-ico. Este gran numero de parametros hace que, 
salvo en el caso en que t-enemos muestras muy grandes, la discrimination cuadrat-icas sea 
bast-ant-e inestable y, aunque las matrices de covarianzas sean muy diferent-es, se obtengan 
con frecuencia mejores result-ados con la funcion lineal que con la cuadratica. Un problema 
adicional con la funcion discriminante cuadratica es que es muy sensible a desviaciones de la 
normalidad de los datos. La evidencia disponible indica que la clasificacion lineal es en estos 
casos mas robust-a. Recomendamos siempre calcular los errores de clasificacion con ambas 
reglas ut-ilizando validacion cruzada y en caso de que las diferencias sean muy pequenas 
quedarse con la lineal. 

Aparece tambien un problema de discrimination cuadratica en el analisis de det-erminadas 
poblaciones no normales. (Vease Lachenbruch (1975)). En el caso general de poblaciones 
arbitrarias t-enemos dos alternativas: (a) aplicar la t-eoria general expuesta en 13.2 y obten- 
er la funcion discriminante que puede ser complicada, b) aplicar la t-eon'a de poblaciones 
normales, t-omar como medida de distancia la distancia de Mahalanobis y clasificar x en la 
poblacion Pj para la cual la D 2 : 



es minima. 

Para poblaciones discret-as estas aproximaciones no son buenas. Se han propuesto meto- 
dos alt-ernat-ivos basados en la distribution multinomial o en la distancia y 2 cuya eficacia 
esta aun por determinarse. 

Ejemplo 13.6 Si aplicamos la discrimination cuadratica a los datos de las medidas fisicas 
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se obtiene la tabla de errores de clasificacion por validacion cruzada (sin aplicar validacion 
cruzada se acierta el 100% como en el caso lineal) 


Realidad 



Clasificado 



M 

H 

M 

11 

4 

H 

5 

7 


que supone un porcentaje de aciertos del 67%, menor que en el caso lineal. No hay 
evidencia de que la discrimination cuadrat.ica suponga ninguna ventaja en este caso. 

13.7 DISCRIMINACION BAYESIANA 

Hemos visto en la section 13.2 que el enfoque Bayesiano permite dar una solution general 
del problema de clasificacion cuando los parametros son conocidos. Cuando los parametros 
deben estimarse a partir de los datos, el enfoque Bayesiano aporta tambien una solution 
directa del problema que t-iene en cuenta la incertidumbre en la estimation de los parametros, 
a diferencia del enfoque clasico que ignora esta incertidumbre. La solution es valida sean o 
no iguales las matrices de covarianza. El procedimimiento para clasificar una observation, 
x 0 , dada la muestra de entrenamiento X, es asignarla a la poblacion mas probable. Para ello 
se obtiene el maximo de las probabilidades a posteriori de que la observation a clasificar, x 0 , 
venga de cada una de las poblaciones dada la muestra X. Estas probabilidades se calculan 
por 


P(i/x 0 ,X) 


/»(x o|X)7r. 

Yfg= i 


donde las densidades / 9 (x 0 |X), que se denominan predictivas a posteriori o simplemente 
predictivas, son proportional a las probabilidades de que la observation x 0 se genere por la 
poblacion g. Estas densidades se obtienen a partir de la verosimilitud promediando sobre los 
posibles valores de los parametros en cada poblacion con su distribution a posteriori: 


/g( x o|X) = J /(x o |0 9 )p(0 9 |X)d0 9 (13.32) 

donde 6 g son los parametros de la poblacion g. 

Vamos a estudiar como obtener estas probabilidades. En primer lugar, la distribution a 
posteriori de los parametros se calcula de la forma habitual mediante 


p(G g \X) =kf{X\0 g )p(0 g ). 

Como vimos en la section 9.2.2 la verosimilitud para la poblacion g con n g elementos mues- 
trales y media muestra x 9 y varianza S g es 


/(X|0 fl ) =k | V 9 T s/2 exp(-^tr(V 9 1 {S g + (x g - fi g )(x g - n g )'}) 
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y con la prior de referenda 


PiPgiVg 1 ) 


k v: 


-(P+ 1)/2 


se obtiene la posterior 

Km 9 , v 9 V x )=^ | V p 1 | (n9 ” p - 1)/2ex P(-y^( V fl 1 {3, + - M 9 )(x 5 - R g )'} 

La distribucion predict-iva se obtendra con (13.32), donde ahora 0, = ( n g , V“ 1 ) . Integrando 
respecto a estos parametros puede obtenerse, (vease Press, 1989, para los detalles de la 
integration ) que la distribution predict-iva es t multivariante 


P(x o/X, g) = 


mr(n g + 1) 


-p/2 


n„ 


til) 

iW) 


IS I -1 / 2 


1 + 


n a + 1 


(Xo - X ff )'S /(xq Xg 


—rig/2 


Con esta distribucion podemos calcular las probabilidades a posteriori para cada poblacion. 
Alternativamente, para decidir entre la poblacion i y la j podemos calcular el ratio de las 
probabilidades a posteriori, dado por : 


^|x) 
P{j |x) 


( \ rij / 2 

1 + n~+l( X 0 ~ ^j) / S7 1 ( x Q ~ Xj) j 

' (l + iliTi( x o - Xj) / S“ 1 (x 0 - Xi)) 


donde 7Tj son las probabilidades a priori, S ; - las matrices de varianza y covarianzas est-imadas, 

y 


r n .( % + i) i-’ /2 r(f)r(^) 

13 [n j (n i + 1)J r(^)r(“) 

Si los tamanos muestrales son aproximadamente iguales, n, ~ rq- , entonces c tJ ~ 1. 
El clasificador optimo es cuadratico. Si suponemos que las matrices de covarianza de los 
grupos son iguales de nuevo obtenemos la funcion lineal discriminante (vease Ait-chinson y 
Dunsmore, 1975). 


13.8 Lecturas complement arias 

El analisis discriminante clasico aqm present-ado se estudia en t-odos los libros de analisis 
multivariante. Present-aciones a un nivel similar al aquf expuesto se encuentran en Cuadras 
(1991), Flury (1997), Johnson and Wichern (1998), Mardia et- al (1979), Rechner (1998) y 
Seber (1984). Un t-ext-o basico muy det-allado y con muchas ext-ensiones y regerencias se 
encuentra en McLachlan (1992). Laclienbruch, (1975) cont-iene muchas referencias historic- 
as. Enfoques mas aplicados cent-rados en al analisis de ejemplos y salidas de ordenador se 
persenta en Huberty (1994), Hair el al (1999) y Tabachnick y Fidell (1996). Un enfoque 
bayesiano al problema de la clasificacidn puede consult-arse en Press (1989). 
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Ejercicios 

13.1 Suponga que se desea discriminar entre dos poblaciones normales con vectores de 
medias (0,0) y (1,1) , varianzas (2,4) y coeficiente de correlacion lineal r=.8. Construir la 
funcion lineal discriminante e interpretarla. 

13.2 Discutir como varfan las probabilidades de error en el problema anterior como funcion 
del coeficiente de correlacion. ^Ayuda la correlacion a la discriminacion? 

13.3 Las probabilidades a priori en el problema 13.1 son 0.7 para la primera poblacion y 
0,3 para la segunda. Calcular la funcion lineal discriminante en este caso. 

13.4 Se desea discriminar entre tres poblaciones normales con vectores de medias (0,0), 
(1,1) y (0,1) con varianzas (2,4) y coeficiente de correlacion lineal r =.5. Calcular y dibujar 
las funciones discriminantes y hallar su punto de corte. 

13.5 Si los costes de equivocarnos en el problema anterior no son los mismos, de manera 
que el coste de clasificar en la tercera poblacion cuando viene de la primera es el doble de 
los demas, calcular las funciones discriminantes. 

13.6 Justifique que los valores propios de W 1 R son positivos, demostrando que esta 
matriz tiene los mismos valores propios que la matriz W~ X ^ 2 BW~ X ^ 2 . 

13.7 Justificar que se obtienen las mismas variables canonicas discriminantes utilizando 
las matrices W y B, que las matrices asociadas de varianzas corregidas por grados de libertad. 

13.8 Demost.rar que es lo mismo obtener el mayor vector propio de W x B y el menor de 
T~ X W. 

13.9 Demost.rar que el primer component.e principal cuando hay dos grupos viene dado 

por v = c(W — AI) X (xx — x 2 ) (sugerencia: SiT = W + B, el primer component.e es el 

mayor autovect.or (ligado al mayor aut.ovalor) de T y verifica T v = Wv + Bv =Av. Como 
B = k(xi — X 2 )(X! — x 2 )', tenemos que Wv + c(xi — x 2 ) = Av). 

13.10 Demostrar que si (xi — x 2 ) es un vector propio de W 1 la direccion discriminante 
es el eje natural de distancia entre las medias y coincide con el primer component.e principal. 

13.11 Demostrar que la distancia de Mahalanobis es invariante a transformaciones lineales 
comprobando que si y = Ax + b, con A cuadrada y no singular, se verifica que D 2 (;//,;, y 3 ) = 
D 2 ( Xi,Xj ). (Sugerencia: utilizar que V y = AV X A' y V y 1 = (A / )~ 1 V x : 1 A / ) 

APENDICE 13.1:EL CRITERIO MINIMIZAR LA PROBABIL- 
IDAD DEL ERROR 

El criterio de minimizar la probabilidad de error puede escribirse como minimizar Pt, 
donde: 

P T (error ) = P(l|x G 2) + P(2|x G 1) 

siendo P(i|x G j) la probabilidad de clasificar en la poblacion i una observacion que proviene 
de la j. Esta probabilidad viene dada por el area encerrada por la distribucion j en la zona 
de clasificacion de i. es decir: 

P(i|x G j) = [ L(x)dx 

JAi 


P T = 



/ 2 (x)dx+ 



/i(x)dx 


por tanto: 
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y como y\] y A 2 son complement arios: 




/ 2 (x)rfx 


que conduce a: 


Pt = 1 - [ (/ 2 (x) - /i(x))dx 
Ja 2 

y para minimizar la probabilidad de error debemos maximizar la integral. Esto se consigue 
definiendo /b 2 como el conjunto de puntos donde el integrando es positivo, es decir: 

A 2 = (x|/ 2 (x) > /i(x)} 

y obtenemos de nuevo el criterio antes establecido. 

APENDICE 13.2: DISCRIMINACION Y REGRESION 

Un resultado interesante es que la construction de una funcion discriminante en el caso 
de dos poblaciones, puede abordarse como un problema de regresion. 

Consideremos las n observaciones como datos en un modelo lineal y definamos unas 
variable respuesta y que toma el valor +ki, cuando x (E Pi y —k 2 , cuando x (E P 2 . Podemos 
asignar a k\ y k 2 valores cualesquiera, aunque, como veremos, los calculos se simplifican si 
hacemos est-as constantes iguales al numero de elementos de la muestra en cada clase. El 
modelo sera: 

Ui = PAxu -x 2 ) + (3 2 (x 2 i -X 2 ) + ... + (3 p (x P i -x p ) + Ui i — 1,2 (13.33) 

donde hemos expresado las x en desviaciones. El estimador de mi'nimos cuadrados es: 

P = (X'X) _1 X'Y (13.34) 

donde X es la matriz de los datos en desviaciones. 

Sea xi el vector de medias en el primer grupo, x 2 en el segundo y xj el correspondiente 
a todas las observaciones. Supongamos que en la muestra hay n\ datos del primer grupo y 
n 2 del segundo. Entonces, 


_ nixi + n 2 x 2 
x T = • 

rii + n 2 

Sustituyendo (13.35) en el primer termino de (13.34): 

ni+ri2 

X'x = ^2 ( x * _ x t)(x* - x T )' = 

i = 1 

n\ ni_|_n 2 

= J^(x,: - Xt ) (X j - x T )' + (Xj - x T )(x,; - x T y. 

i= 1 i=l~hni 


(13.35) 
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Como 

n 1 

y^(x,-x T )(x t -x T y 

i— 1 


^1 

- X! + X! - Xr)(Xj - Xi + Xi - X T )' = 

i= 1 


ni 

y (xi - Xi)(xj - Xi)' + ni(xi - x T )(xi - x T )' 
i = 1 


ya que los terminos cruzados se anulan al ser ^" =1 (x, — xi) = 0. Procediendo analogamente 
para el otro grupo, podemos escribir: 


X'X 


n i ni+n 2 

y^(xj - xi)(xj - xi) ; + y (xj -x 2 )(xj -x 2 )' 


i= 1 Z =71 1+1 

+ni(x! - x T )(xi - x T )' + n 2 (x 2 - x T )(x 2 - x T )' 


(13.36) 


Los primeros dos terminos conducen a la matriz W de sumas de cuadrados dentro de 
grupos que, como hemos visto, estima V, mediante: 


V = S = 


ni +n 2 — 2 


-W. 


(13.37) 


Los segundos dos terminos son las sumas de cuadrados entre grupos. Sustituyendo x^ 
por (13.35): 


_ niXi + n 2 x 2 
xi - 


Til + Tl ‘2 Til + n 2 


n 2 (xi - x 2 ), 


(13.38) 


con lo que result a: 


(xi - x T )(x x - x T )' = 


n 2 


ni + n 2 


(xi -x 2 )(xi -x 2 y 


(13.39) 


(x 2 - x T )(x 2 - x T )' = ( — — — ^ (x 2 -Xi)(x 2 -Xi)' (13.40) 

\ni Tn 2 J 

Sustituyendo (13.39) y (13.40) en (13.36) obtenemos que: 

X'X = (ni +n 2 - 2)S -f ; — (x x - x 2 )(x x - x 2 )' 

ni + n 2 

que implica 

(x'x) = (m + n 2 - 2) -1 S -1 + aS _1 (xi - x 2 )(xi - x 2 )'S _1 (13.41) 

donde a es una constante. Por otro lado: 

ni+n 2 n\ n 2 

X'Y = y yi(xj - x r ) = fa y (x* - x T ) - k 2 y (x* - x T ) 

Z =1 1=1 1=1 
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sust-ituyendo X 7 - por su expresion (13.35), result-a, por (13.38): 


X'Y 


kiriiriz 
n\ + n 2 


(xi - x 2 ) + 


k 2 n^n 2 
rii + n 2 


(Xi - x 2 ) 


(xi - x 2 )A: t 


(13.42) 


siendo k T = mn 2 (ki + k 2 )/{n\ + n 2 ). Sust-ituyendo (13.41) y (13.42) en la formula (13.34) 
se obtiene que: 

f3 = k. S _ 1 (x! - x 2 ) 


que es la expresion de la funcion discriminante clasica. 



Capftulo 14 


DISCRIMINACION LOGISTICA Y 
OTROS METODOS DE 
CLASIFICACION 


14.1 INTRODUCTION 

El problema de discriminacion o clasificacion cuando conocemos los parametros de las dis- 
tribuciones admit-e una solution general que hemos visto en el capftulo anterior. Sin embargo, 
en la mayorfa de las aplicaciones los parametros son desconocidos y deben estimarse a partir 
de los datos. Si la distribution conjunta de las observaciones es normal multivariante, uti- 
lizar las distancias de Mahalanobis estimadas suele dar buenos result-ados y sera optimo con 
muestras grandes. Sin embargo, es frecuent-e que los datos disponibles para la clasificacion 
no sean normales. Por ejemplo, en muchos problemas de clasificacion se ut-ilizan variables 
discret-as. En est-os casos no tenemos garantfas de que los metodos estudiados en el capftulo 
13 sean optimos. 

En este capftulo presentamos otros metodos de clasificacion. Una posibilidad es intentar 
construir un modelo que explique los valores de la variable de clasificacion. Por ejemplo, 
si se desea discriminar entre credit-os que se devuelven o que presentan problemas para su 
cobro, puede anadirse a la base de dat-os una nueva variable, y, que tome el valor cero 
cuando el credit-o se devuelve sin problemas, y el valor uno en otro caso. El problema de 
discriminacion se conviert-e en prever el valor de la variable fict-icia, y. en un nuevo element-o 
del que conocemos el vector de variables x. Si el valor previst-o esta mas proximo a cero que 
a uno, clasificaremos al elemento en la primera poblacion. En otro caso, lo haremos en la 
segunda. Para modelar este tipo de relaciones se ut-ilizan los modelos de respuesta cualit-at-iva, 
que se revisan en la seccion siguiente. Dentro de est-a clase el modelo mas utilizado es el 
modelo logi'stico, que se estudia con cierto det-alle en las secciones siguientes. 

Ademas del modelo logi'stico, presentamos brevement-e en este capftulo ot-ros metodos de 
discriminacion, que pueden verse como procedimientos generales de aproximar la funcion de 
clasificacion en casos complejos no lineales y que requiren el uso int-ensivo del ordenador. El 
primero de estos metodos es el de los arboles de clasificacion, CART, que es un algoritmo 
para llevar a la practica una idea simple pero efect-iva, especialment-e cuando muchas de 
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las variables de clasificacion son binarias. El segundo es el de las redes neuronales, que son 
aproximaciones universales de funciones y, convenientemente construidas, pueden dar buenos 
result-ados en casos no lineales. El tercero es los metodos no parametricos, que utilizan 
aproximaciones locales. El cuarto ha sido propuesto recient-ement-e por Vapnik (2000) y 
const-ituye una filosofi'a alt-ernat-iva a las redes neuronales para aproximar funciones generales. 
La eficacia de estos procedimientos es t-odavi'a objet-o de investigation. 

14.2 EL MODELO LOGIT 

14.2.1 Modelos con respuesta cualitativa 

Consideremos el problema de la discrimination entre dos poblaciones. Una forma de abordar 
el problema es definir una variable de clasificacion, y. que tome el valor cero cuando el 
element-o pertenece a la primera poblacion, P 1 , y uno cuando pertenece a la segunda, P 2 . 
Entonces, la muestra consistira en n element-os del tipo (y t . x, ) , donde y, es el valor en ese 
element-o de la variable binaria de clasificacidn y x, un vector de variables explicat-ivas. A 
continuation, construiremos un modelo para prever el valor de la variable fict-icia binaria en 
un nuevo element-o cuando se conocen las variables x. El primer enfoque simple es formular 
el modelo de regresion: 


V = Pa + P i x + u (14.1) 

y, hemos vist-o en el capi'tulo anterior, que si estimamos los parametros por mrnimos cuadra- 
dos este procedimient-o es equivalent-e a la funcion lineal discriminante de Fisher y es optimo 
para clasificar si la distribution conjunta de las variables explicat-ivas es normal multivari- 
ant-e, con la misma matriz de covarianzas. Sin embargo, este modelo presenta problemas de 
interpretation. Tomando esperanzas en (14.1) para x = xp 

E\y\*i] =^o + /3 , i x i (14-2) 

Llamemos pi a la probabilidad de que y t-ome el valor 1 (pert-enezca a la poblacion P 2 ) cuando 
x = Xj : 


Pi = P(y = l\xi) (14.3) 

la variable y es binomial y t-oma los valores posibles uno y cero con probabilidades p, y 1 —p t . 
Su esperanza sera : 


E [y|xj] = pi x 1 + (1 - p^ x 0 = pi 


(14.4) 


y de (14.2) y (14.4), concluimos que: 


Pi = A) + 01 X; 


(14.5) 


Est-a formulation t-iene dos problemas principales: 
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1. Si estimamos el modelo lineal (14.1), la prediccion % = p r est.ima, por (14.5), la prob- 
abilidad de que un individuo con caracten'sticas definidas por x = x, pertenezca a la 
segunda poblacion. Sin embargo p, debe estar entre cero y uno, y no hay ninguna 
garantfa de que la prediccion y) verifique esta restriction: podemos obtener probabil- 
idades mayores que la unidad o negativas. Esto no es un problema para clasificar la 
observacion, pero si lo es para interpretar el resultado de la regia de clasificacion. 

2. Como los unicos valores posibles de y son cero y uno la perturbacion u, solo puede 
tomar los valores 1 — /3 0 + /^x* = 1 — p* y — /3 0 — (3'px.i = — p% con probabilidades pi y 
(1 — pi) . La esperanza de la perturbacion es cero ya que: 

E [ui] = pi (1 - pi) + (1 - Pi) (- Pi ) = 0 

pero la perturbacion no sigue una distribution normal. En consecuencia, los esti- 
madores minimocuadraticos de los coeficientes del modelo (14.1) no seran eficientes. 
La varianza de u r es: 

Var (' Ui ) = (1 - Pi) 2 Pi + (1 ~Pi)p 2 i = (1 - Pi) Pi , 

y las perturbaciones son heterocedasticas. Para estimar los parametros del modelo se 
deben'a utilizar mmimos cuadrados ponderados. 

A pesar de estos dos inconvenientes, este modelo simple estimado por mmimos cuadrados 
conduce a una buena regia de clasificacion, ya que, segun la interpretacion de Fisher, maxi- 
miza la separacion entre los grupos, sea cual sea la distribucion de los datos. Sin embargo, 
cuando los datos no son normales, o no tienen la misma matriz de covarianzas, la clasificacion 
mediante una ecuacion de relacion lineal no es necesariamente optima. 

Si queremos que el modelo construido para discriminar nos proporcione direct-amente la 
probabilidad de pert-enecer a cada poblacion, debemos transformar la variable respuesta para 
garantizar que la respuesta prevista este entre cero y uno. Escribiendo: 

Pi = F((3 0 + (3[xi ) , 

Pi est-ara entre cero y uno si escogemos F para que tenga esa propiedad. La clase de funciones 
no decrecientes acotadas entre cero y uno es la clase de las funciones de distribucion, por 
lo que el problema se resuelve tomando como F cualquier funcion de distribucion. Algunas 
posibilidades consideradas son: 

(1) Tomar como F la funcion de distribucion de una uniforme. Esto equivale a truncar 
el modelo de regresion, ya que entonces: 

Pi = 1 si P Q + (3\x t > 1 

Pi = P 0 + P Xj 0 < P 0 + (3\x t < 1 
Pi = 0 (3 0 + P'i Xi < 0. 

Esta solucion no es sin embargo satisfactoria ni teoricamente (un pequeno incremento de x 
produce en los ext-remos un salto muy grande, cuando serfa mas logico una evolution gradual), 
ni practicamente: la estimation del modelo es difi'cil e inestable debido a la discontinuidad. 
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(2) Tomar como F la funcion de distribution logi'st-ica, dada por: 

1 

1 + e ~ /3 o-P'i x > ’ 

Esta funcion tiene la ventaja de la continuidad. Ademas como 

g— A) - / 3 ! x i 1 

^ 1 + e ~0o -/3'i x i 1 -f e Po+Pi x i 

resulta que: 

9i = l°g , Pl = Po + x * (14.7) 

1 - Pi 

que es un modelo lineal en esta transformation que se denomina logit. La variable Logit, 
g, representa en una escala logarftmica la diferencia entre las probabilidades de pertenecer 
a ambas poblaciones, y al ser una funcion lineal de las variables explicativas nos facilita la 
estimation y la interpretation del modelo. 

(3) Tomar otra distribution, como por ejemplo escoger F igual a la distribution normal 
estandar. Se obtiene entonces el modelo probit, que es muy similar al logit, sin tener las 
ventajas de interpretation del modelo logi'st-ico, como veremos a continuation. 


(14.6) 


14.2.2 El modelo logit con datos normales 


El modelo logit se aplica a una amplia gama de situaciones donde las variables explicativas 
no t.ienen una distribution conjunta normal multivariante. Por ejemplo, si algunas son 
categoricas, podemos introducirlas en el modelo logit mediante variables ficticias como se 
liace en el modelo de regresion estandar. Una ventaja adicional de este modelo es que si las 
variables sou normales verifican el modelo logit. En efecto, supongamos que las variables 
x provienen de una de dos poblaciones normales multivariantes con dist.inta media pero la 
misma matriz de varianzas covarianzas. Hemos visto en el capi'tulo anterior (seccion 12.2) 
que, suponiendo las probabilidades a priori de ambas poblaciones iguales: 


Pi = P(y= l|xi) 


fi ( x ») 

fl (Xi) + h (Xi) 


(14.8) 


y, utilizando la transformation logit, (14.7): 


9i = 108 Ti Tx 1 ) = ~ ^ V 1 “ Vi) + \ ( x i - R2)' V 1 (Xi - fl 2 ) 


y simplificando 


9i= 2 (m 2 V V 2 - MrV Vi) + (Mi - M 2 )'V x Xi. 


Por tanto, g, es una funcion lineal de las variables x, que es la caracterfstica que define 
el modelo logit. Comparando con (14.7) la ordenada en el origen, /3 0 , es igual 

Po = \ (M 2 V'V 2 - MiV'Vi) = -^w' (/X! + /x 2 ) 
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donde w = V 1 f/i, — /x 2 ) , y el vector de pendientes 

Pi = w 

Observemos que la estimation de w mediante el modelo logi'stico no es eficiente en el 
caso normal. En efecto, en lugar de estimar los p(p+ 1) /2 terminos de la matriz V y los 
2 p de las medias xj y x 2 , con el modelo logi'stico estimamos unicamente p + 1 parametros 
f3 o, ft rr En el caso de normalidad se obtiene un mejor procedimiento con la regia de 

Fisher, que estima V,xi y X 2 , la distribution completa de las x, mientras que el modelo 
logi'stico estima solo los /Hi parametros de la distribution de y condicionada a x. Como: 


/(x,y) = /(y|x)/(x) 

perdemos informacion al consider ar solo la condicionada / (y|x) — como hace el modelo 
logi'stico — en lugar de la conjrmta / (x, y), que se ut.iliza en el enfoque del capi't.ulo anterior. 
Efron (1975) demostro que cuando los datos son normales multivariantes y estimamos los 
parametros en la muestra, la funcion de discrimination lineal de Fisher funciona mejor que 
regresion logi'st-ica 

En resumen, en el caso de normalidad la regia discriminante es mejor que el modelo 
logi'stico. Sin embargo, la funcion logfstica puede ser mas ehcaz cuando los poblaciones 
tengan distint-a matriz de covarianzas o sean marcadamente no normales. En el campo de la 
concesion automatica de creditos (Credit Socoring) existen numerosos estudios comparando 
ambos metodos. La conclusion general es que ninguno de los dos metodos supera al otro de 
manera uniforme y que depende de la base de datos ut.ilizada. Rosenberg y Gleit (1994) y 
Hand y Henley (1997) han presentado estudios sobre este problema. 

14.2.3 Interpretacion del Modelo Logfstico 

Los parametros del modelo son 0 O , la ordenada en el origen, y (3 l = (jft , ..., ft p j , las pendi- 
entes. A veces se utilizan tambien como parametros exp(/7 0 ) y exp(/3 a ), que se denomiuan 
los odds ratios o ratios de probabilidades, e iudican cuanto se modihcan las probabilidades 
por uuidad de cambio en las variables x. En efecto, de (14.7) deducimos que 

Oi = = exp(/3 0 ). JJexp(/3 i )* i - 

Pi j=l 

Supongamos dos elementos, i. k. con todos los valores de las variables iguales excepto la 
variable h y Xih = Xjh + 1. El cociente de los ratios de probabilidades (odds ratio) para estas 
dos observaciones es: 


Cft 

Ok 


= e^ h 


e indica cuanto se modihca el ratio de probabilidades cuando la variable Xf, aumenta una 
unidad. Sust-ituyendo p, = .5 en el modelo logit, entonces, 
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log ~r~~ = Po + PiXn + ••• + PpXip = 0, 

■t Pi 

es decir, 

_ __/?o __ Pj X ij 

11 fh up i 1 

y Xj\ representa el valor de x\ que hace igualmente probable que un elemento, cuyas restantes 
variables son x i2: .... x ip . pertenezca a la primera o la segunda poblacion. 


14.3 LA ESTIMACION DEL MODELO LOGIT 

14.3.1 Estimacion MV 

Supondremos una muestra aleat-oria de datos (x, : . y t ). i = 1, La funcion de probabili- 
dades para una respuesta y, cualquiera es: 


y para la muestra : 


P(Vi) = Pf{ 1 ~ PiY Vi Vi = 0, 1 


n 

P(yi,...y n ) = nrfd-ft) 1 -"- 

1=1 

Tomando logaritmos: 

log P (y ) = XJ lh k, g (r^) + J^ lo s( 1 -pO ( 14 - 9 ) 

la funcion soporte (de verosimilitud en logaritmos) puede escribirse como 

n 

log P((3) = ^2(yi log Pi + (l - Vi) log(l - Pi)). (14.10) 

1=1 

donde f3' = (/? 0 , (3^.. . ,(3 p ) es un vector de p + 1 componentes, incluyendo la constante 
(3 o que determina las probabilidades p*. Maximizar la verosimilitud puede expresarse como 
minimizar una funcion que mide la desviacion entre los datos y el modelo. En el capi'tulo 
10 se definio la desviacion de un modelo mediante D(0) = — 2 L (49 ) y por tanto la desviacion 
del modelo sera: 

n 

d(P) = - 2 logp* + (i - yi) iog(i - Pi)). 

i=l 


(14.11) 
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y hablaremos indistintamente de de maximizar el soport-e o minimizar la desviacion del 
modelo. Se define la desviacion de cada dato (deviance) por: 

di = -2 (yi log pi + (1 - yi) log(l - pi)). (14.12) 

y miden el ajuste del modelo al dato (y, . : x, ) . En efecto, observemos en primer lugar que como 
los Pi son menores que uno, sus logaritmos son negativos, por lo que la desviacion es siempre 
positiva. Ademas, en el calculo de la desviacion solo interviene uno de sus dos terminos, ya 
que yi solo puede valer cero o uno. Ent.onces: 

• Si yi = 1, y la observacion pertenece a la segunda poblacion, el segundo termino de 
la desviacion es nulo y di = — 2 log p, . La observacion t-endra una desviacion grande si 
la probabilidad estimada de pertenecer a la segunda poblacion, p, . es pequena, lo que 
indica que esta observacion esta mal explicada por el modelo. 

• Si ip — 0, y la observacion pertenece a la primera poblacion, solo interviene el segundo 
termino de la desviacion di = —2 log (1 — p, ) . La desviacion sera grande si p, es grande, 
lo que indica que la probabilidad de pertenecer a la verdadera poblacion es pequena y 
el modelo ajusta mal dicho dato. 

Para maximizar la verosimilitud, expresando p, en funcion de los parametros de interes, 
/ 3 ,en (14.9) obtenemos la funcion soporte: 


L (P) = YI ~ YI log ( 1 + e *' iP ) (i4.i3) 

i= 1 i = 1 

que derivaremos para obtener los estimadores MV. Escribiendo el resultado como vector 
columua: 


dL ((3) 
dp 



(14.14) 


e igualando est-e vector a cero y llamando (3 a los parametros que satisfaceu el sistema de 
ecuaciones: 


= Y^ ( ~z^ ) = Yy^ ( 14 - 15 ) 

Estas ecuaciones establecen que el product.o de los valores observados por las variables 
explicativas debe ser igual al de los valores previstos. Tambien, que los residuos del modelo, 
e r = y, — y, . deben ser ortogonales a las variables x. Esta condiciou es analoga a la obt-enida 
en el modelo de regresion estandar, pero ahora el sistema (14.15) resultant-e no es lineal en 
los parametros [L Para obtener el valor P MV que maximiza la verosimilitud acudiremos a 
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un algoritmo tipo Newton-Raphson. Desarrollando el vector ( dL(f3 ) /Of!) alrededor de un 
punto /3 a , se tiene 


dUfi) dL(p a ) d 2 L(p J 

ap ap apap‘ yp Pa ’’ 

para que el punto (3 a corresponda al maximo de verosimilitud su primera derivada debe 
anularse. Imponiendo la condicion f)L (J3 n ) /d/3 = 0, se obtiene: 


A 


(3+ 


( &L(P a ) \ 

V met ) 


( dL((3) \ 

V df3 J 


(14.16) 


que expresa como obt-ener el punto maximo f3 a . a partir de un punto proximo cualquiera (3 . 
La ecuacion depende de la matriz de segundas derivadas, que, en el optimo, es la inversa 
de la matriz de varianzas y covarianzas asintot-ica de los estimadores MV. Para obt-ener su 
expresion, derivando por segunda vez en (14.14), se obtiene: 


M' 1 = 



donde los coeficient.es uy est-an dados por: 


(14.17) 


~x!- (3 

Ui = - — ^ — —2 = Pi( 1 - Pi) (14.18) 

( 1+e "‘0 

Sust-ituyendo en (14.16) las expresiones (14.17) y (14.14) y evaluando las derivadas en un 
estimador inicial fi, se obtiene el siguient-e met-odo para obt-ener un nuevo valor del estimador, 
1 3 a , a partir del (3 


A, 



X * (Vi ~ Pi) 


donde % y cDj se calculan con el valor (3. El algortimo puede escribirse como: 


(14.19) 


(14.20) 


donde W es una matriz diagonal con terminos f>, (1 - p,') y Y el vector de valores esperados 
de Y. La matriz de varianzas y covarianzas de los estimadores asf obt-enidos es aproximada- 

ment-e, segfin (14.20), ^X'Wxj . Observemos que la ecuacion (14.20) indica que debemos 


(3 a = 3 + ( X'wx) 1 X' fY-Y 
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modificar el estimador si los residuos no son ortogonales a las variables explicativas, es decir 
si X' ^Y— 7 ^ 0. La modification del estimador depende de esta diferencia y se reparte 

entre los componentes de (3 en funcion de su matriz de varianzas y covarianzas estimada. 

La forma habitual de implementar est-e metodo es el siguiente algoritmo iterat-ivo que 
proporciona en convergencia el estimador MV de (3. 

1. Fijar un valor arbitrario initial, (3 l . para los parametros y obtener el vector Yi para 
dicho valor en el modelo logit. Por ejemplo, si (3 1 = 0, 

Vi -Pi~ 1 + g— o _ 2 

y el vector Y tiene todas sus componentes iguales a 1/2. 

2. Definir una variable auxiliar z, de residuos estandarizados por: 

Vi ~Vi Vi~ Pi 

z i = , = = = 

VVi (! - Vi) \/Pi (! - Pi) 

o vectorialmente: 

z =W~ 1 / 2 (Y-Y) 

donde W es una matriz diagonal con terminos y t (l — y t ). 

3. Estimar por mi'nimos cuadrados una regresion con variable dependiente Z y matriz 
de regresores T =W 1 // 2 X. Los parametros estimados con esta regresion, bi, vendran 
dados por: 

bi = (T'T ) -1 T'Z 

= (x'wx) 1 X' (y- y) 

y, comparando con (14.20), vernos que bi estima el incremento j3 a — j3 l de los paramet- 
ros que nos acerca al maximo. 

4. Obtener un nuevo estimador de los parametros (3 2 del modelo logi'st.ico mediante 

P2 = Pi + bi 

5. Tomar el valor estimado resultante de la etapa anterior, que en general llamaremos fl h . 
y sustituirlo en la ecuacion del modelo logi'st-ico para obtener el vector de estimadores 
Y (flhj = Y h . Ut-ilizando este vector Y h construir la matriz W /, y las nuevas variables 

z h y T h 

Zh = W ft 1/2 (y-y,) , 

T/i = Wi / 2 X, 

y volver a la etapa 2. El proceso se repit-e hast-a obtener la convergencia (/3 h+1 — /9 h ] . 
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14.3.2 Contrastes 

Si queremos contrastar si una variable o grupo de variables incluidas dentro de la ecuacion es 
significative, podemos construir un contrast-e de la razon de verosimilitudes comparando el 
maximo de la funcion de verosimilitud para el modelo con y sin estas variables. Supongamos 
que [3 = (/3 1 /3 2 ) , donde (3 l t-iene dimension p~ s, y /3 2 tiene dimension s. Se desea contrastar 
si el vector de parametros: 


Ho '■ @2 — 0 . 


frente a la alternativa 


Hi : f3 2 ^ 0 


El contrat-e de razon de verosimilitudes utiliza que A = 2L(II { ) — 2 L(H 0 ), donde L(H 1 ) es el 
maximo del soporte cuando estimamos los parametros bajo Hi y L(Hq ) es el maximo cuando 
estimamos los parametros bajo H 0 es, si H 0 es cierta, una xt- U na rnanera equivalente de 
definir el cont-raste es llamar D ( // 0 ) = — 2L(/3 1 ) a la desviacion cuando el modelo se est-ima 
bajo H 0 , es decir, suponiendo que f3 2 = 0, y D(Hi) = ~2L(/3 1 /3 2 ) a la desviacion bajo 
Hi. La desviacion sera menor con el modelo con mas parametros (la verosimilitud sera 
siempre mayor bajo II \ y, si H 0 es cierta, la diferencia de desviaciones, que es el contraste 
de verosimilitudes 


= d(H 0 ) - D(Hi) = 2 L0M - 2L0,) 

se distribuye como una x'i con s grados de libert-ad. 

En particular este test puede aplicarse para comprobar si un parametro es significat-ivo 
y debe dejarse en el modelo. Sin embargo, es mas habitual en estos casos comparar el 
parametro estimado con su desviacion ti'pica. Los cocientes 


Wj = 



se denominan estadisticos de Wald y en muest-ras grandes se distribuyen, si el verdadero 
valor del parametro es cero, como una normal estandar. 

Una medida global del ajust-e es 


pm . m 

D 0 L(M 


donde el numerador es la desviacion (verosimilitud en el maximo) para el modelo con 
parametros estimados fl y el denominador la desviacion (verosimilitud) para el modelo que 
solo incluye la constants /3 0 . Observemos que, en este ultimo caso, la estimacion de la prob- 
abilidad pi es constante para todos los datos e igual a m/n siendo m el numero de element-os 
en la muestra con la variable y = 1. Ent-onces, sustituyendo en (14.11) la desviacion maxima 
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que corresponde al modelo mas simple posible con solo /3 0 que asigna la misma probabilidad 
a todos los datos, es 

Dq = —2 L(f3 0 )= — 2 m log m — 2 (n — m) log(n — m ) + 2 n logn. 

Por otro lado, si el ajuste es perfecto, es decir todas las observaciones con y = 1 tienen 
Pi = 1 y las de y = 0 tienen p t = 0, entonces, segun (14.9) la desviacion es cero y L(/3) = 0 
y R 2 — 1. Por el contrario, si las variables explicativas no influyen nada la desviacion con 
las variables explicativas sera igual que sin ellas, L(j3) = L(/3 0 ) y R 2 = 0. 


Ejemplo 14.1 Vam.os a utilizar los datos de MEDIFIS para construir un modelo logit que 
clasifique una persona como hombre o mujer en funcion de sus medidas fisicas. 

Si intentamos explicar la variables binaria, genero, en funcion de todas las variables 
observadas obtenemos que el modelo es 

log — — — = —488.84 + 11.84pie + 

1 - Pi 

2.93 aes — 5.10 dcr — 10.5 Irt — 3.73 est + 4.59 Ibr + .14 pes 


el modelo ajusta perfectamente los datos y no es posible calcular desviaciones tipicas para los 
coeficientes. El modelo no es unico. El problems es que tenemos solo 21 observaciones y con 
las siete variables clasificamos facilmente todas las observaciones. Sin embargo, el modelo 
obtenido puede ser muy malo para clasificar otras observaciones. 

Vam.os a contruir el modelo paso a paso. La variable con mayor coeficiente en la ecuacion 
anterior es el pie con lo que comenzaremos con esta variable. Estimando el modelo estimado 
con el programa SPSS (con MINITAB no se produce convergencia del algoritmo), el modelo 
es: 

log — — — = —433 + 11.08 pie 
I- Pi 

Los dos parametros estan muy correlados y las desviaciones tipicas son muy grandes. El 
valor inicial de la desviacion es D 0 =37.1. Despues de estimar el modelo la desviacion es D= 
3.8. La diferencia entre desviaciones nos proporciona el contraste para ver si la variable pie 
es signiftcativa. Esta diferencia es 33.27 que bajo la hipotesis de que el parametro es cero 
sera aproximadamente una distribucion ji-cuadrado con 1 grado de libertad. El valor es tan 
grande que rechazam.os la hipotesis a cualquier nivel de significacion y concluim.os que el pie 
es muy util para discriminar. 

Es interesante que, en este caso, el estadistico de Wald lleva a un resultado distinto. 
Como los parametros estan muy correlados, la desviacion tipica del coeficiente del pie es 
108.9, y el estadistico de Wald es 11.08/ 108.— .01 que no es significativo. 

Si aplicam.os esta ecuacion para clasificar los datos muestrales obtenemos un porcentaje 
de exitos del 96%. Solo una observacion se clasifica mal como indica la tabla 


Realidad 



Clasificado 


M 

H 

M 

15 

0 

H 

1 

11 
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Ejemplo 14.2 Vam.os a intentar introducir una variable adicional en el m.odelo logistico 
anterior que contiene solo el pie. Introducimos la estatura, y el m.odelo estimado es 

log — = —440.85 + 12.0 pie - -.169est 
1 -Pi 

con desviaciones tipicas (4-092), ("104.9) y (0,5243) . El coeficiente de estatura es -.1693 
con error estandar .5243 dando lugar a un estadistico de Wald de .3, con lo que concluimos 
que este coeficiente no es significativo. La desviacion de este m.odelo es 3.709. Por tanto la 
reduccidn en desviacion debida a la variable estatura con respect, o al modelo que solo incluye 
el pie es solo de 3.80-3.71— .09, que no es significativa comparada con una ji-cuadrado con 
1 grado de libertad. Este resultado es previsible ya que el modelo con las siete variables 
tiene una desviacion de cero y el que contiene solo el pie una desviacion de D= 3.8: el 
cont.raste de que las seis variables adicionales no influyen lleva, en consecuencia, a un valor 
del estadistico de 3.8, y este valor en la hipotesis de que las variable no influyen debe provenir 
de una ~xf con seis grados de libertad, lo que concuerda con lo observado, y debemos concluir 
que ninguna de las variables adicionales influye. La conclusion es pues que unicamente con 
el pie podemos clasificar estos datos con poco error. 

Si comparemos estos resultados con los del capitulo anterior (ejemplo 13.3) son bast, ante 
consistentes porque alii ya observam.os que la variable m.as importante era el pie. El por- 
centaje de clasificacion de la funcion lineal discrim inante era del 100% que disminuia al 
85% con validacion cruzada. En el modelo logistico con solo una variable hem, os obtenido 
el 96% de exito. Con validacion cruzada este valor disminuye algo, pero mucho menos que 
en el ejemplo 13.3 debido a la economia de parametros que hace que se produzca menos 
sobreajuste. 

Ejemplo 14.3 Vamos a utilizar los datos de MUNDODES para ver cuales son las variables 
que clasifican mejor a un pais como pertenecient.e al continent, e africano. La funcion logit, 
estimada es 


log 


Pi 

Pi 


15.58 + .18in — .14 tm 
— .033 mi + .05 Ipnb + .13 em — .47 eh 


Las variables tn, mi y eh son significativas, con un cociente entre la estimacion del 
parametro y la desviacion tipica de 6.8, 2.09 y 2.5 respectivamente. La desviacion inicial es 
D((3 0 )=-2(27[og27-f-64log64-91\og91)= 110.66. Por otro lado, la desviacion del modelo esti- 
mado es -2 L(/3 ) = 41.41 y la diferencia entre estas dos cant.idades proporciona el cont.raste de 
que las variables no influyen. Si esto es cierto la diferencia, 69.25 sera una ji-cuadrado con 
6 grados de libertad. Como este valor es muy grande rechazamos esta hipotesis y admitimos 
que las variables influyen. El pseudo coeficiente de determ, inacion es 


, 41.41 

R 2 = 1 

110.66 


.63 


La t.abla de clasificacion con este m.odelo es 
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Clasificado 




nA 

A 

Realidad 

nA 

61 

3 


A 

5 

22 


que supone una proportion de exitos de 83/91, o de 91%. 


14.3.3 Diagnosis 

Los residuos del modelo logit (que a veces se denominan residuos de Pearson) se definen por: 

_ Vi ~Pi 

Gi — — , 

y/piO- -Pi) 

y, si el modelo es correcto, seran variables de media cero y varianza unidad que pueden 
servirnos para hacer la diagnosis del modelo. El estadfstico y 2 = Y^i=i e ? permite realizar 
un contraste global de la bondad del ajuste. Si el modelo es adecuado se distribuye asintoti- 
camente como una y 2 con gl = n — p — 1 , donde p + 1 es el numero de parametros en el 
modelo. 

En lugar de los residuos de Pearson se utiliza mucho las desviaciones de las observaciones 
o pseudoresiduos, definidas en (14.12) por di = — 2(y* logpj + (l— yi) log(l— p t )), que aparece, 
de manera natural, en la maximization de la funcion de verosimilitud. 

Podemos hacer un contraste de razon de verosimilitudes de la bondad del modelo como 
sigue: la hipotesis nula sera que el modelo es adecuado, es decir, las probabilidades pueden 
calcularse con el modelo logfstico con p -\ 1 parametros. La hipotesis alternativa sera que el 
modelo no es adecuado y las n probabilidades son libres (supuesto que las x son distintas). 
Entonces, la desviacion bajo H 0 es D(H 0 ), mientras que bajo Hi cada observation queda 
perfectamente clasihcada dando p, = 0 si pertenece a la primera poblacion y p, = 1 si 
pertenece a la segunda, y la desviacion es cero porque t-odas las observaciones se clasifican 
sin error. El contraste de la razon de verosimilitudes se reduce al estadfstico desviacion 
global: 

D(H 0 ) = -2 ^2(yi log pi + (1 - yi) log(l - p^) 

que, si el modelo es correcto, sera tambien asintbticamente una y 2 con n — p — 1 grados de 
libert-ad 


14.4 EL MODELO MULTILOGIT 

El modelo logit puede generalizarse para mas de dos poblaciones, es decir, para variables 
respuesta cualitativas con mas de dos niveles posibles. Supongamos G poblaciones, entonces, 
llamando p ig a la probabilidad de que la observation i pertenezca a la clase g, podemos 
escribir: 

ghog+hlgXj 

Pig = 


G - 1 




(14.21) 
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y 

1 

PiG ~ 1 + Ejti 1 e-Pw-P'v** 

con lo que automaticamente garantizamos que J2 g=1 Pi g = 1. Diremos que las probabilidades 
Pig sat.isfacen una distribution logfstica multivariante. La comparacion entre dos categon'as 
se hace de la forma habitual 

PH = e O 0g -P 03 ) e O' lg -P'^ 

Pij Q^Oj+Plj^i 

Esta ecuacion indica que las probabilidades relativas entre dos alternativas no dependen del 
resto. Esa hipotesis puede generalizarse (vease Maddala, 1983). 

La estimation y contrastes de esos modelos son extensiones directas de los logit ya es- 
tudiados y no entraremos en los detalles que el lector interesado puede encontrar en Fox 
(1984) 

14.5 OTROS METODOS DE CLASIFICACION 

14.5.1 Arboles de Clasificacion 

Un procedimiento alternative de clasificacion debido a Breiman y Friedman (vease 
Breiman et al., 1984) son los arboles de clasificacion (Classification and Regression Trees, 
CART). Este procedimiento no ut.iliza un modelo estadi'st-ico formal y es mas bien un al- 
goritmo para clasificar utilizando particiones binarias sucesivas utilizando los valores de una 
variable cada vez. La idea del procedimiento se resume en la figura 14.1. Suponemos que 
se dispone de una muestra de entrenamiento, que incluye la information del grupo al que 
pertenece cada dato y que servira para construir el criterio de clasificacion. Posteriormente 
se aplicara el criterio para clasificar nuevos datos. Comenzamos con un nudo inicial y nos 
preguntamos como dividir el conjunto de datos disponibles en dos partes mas homogeneas 
utilizando el valor de una de las variables. La variable se escoge de manera que una par- 
tition de los datos en funcion de que su valor para esta variable sea mayor o menor que 
una constants proporcione una division de los datos en dos conjuntos lo mas homogeneos 
posibles. 

El algortimo comienza seleccionando una variable, supongamos que la x t . y obteniendo 
un punto de corte, c, de manera que separemos los datos que t-ienen x\ < c de aquellos con 
x i > c. De este nudo incial saldra ahora dos, uno al que llegaran las observaciones con X\ < c 
y otro al que llegaran las que tienen x \ > c. En cada uno de estos nudos se vuelve a repetir 
el proceso de seleccionar una variable y un punto de corte dividir la muestra en dos partes 
mas homogeneas. El proceso termina cuando hayamos clasificado todas las observaciones 
(o casi todas) correctament-e en su grupo. La construction del arbol requiere las decisiones 
siguientes: 

1. La selection de las variables y de sus puntos de corte para hacer las divisiones. 

2. Cuando un nudo se considera terminal y cuando se continua dividiendo. 
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Figura 14.1: Ejemplo de arbol de clasificacion 


3. La asignacion de las clases a los nudos terminales. 

Supongamos que se desea clasificar las observaciones en G grupos. Por el primer nudo, 
llamado nudo raiz y marcado en la figura por xl, pasaran todas las observaciones, mientras 
que por cualquier otro nudo solo pasaran las observaciones que verifican las condiciones de 
llegada a ese nudo. Por ejemplo, en el nudo x21. solo se encuentran aquellas observaciones 
para las que se responde SI a la pregunta : , : es x\ < cl. Podemos entonces asociar a cada 
nudo el subconjunto de observaciones que pasaran por el. Para decidir la variable que va a 
utilizarse para hacer la particion en un nudo se calcula primero la proportion de observaciones 
que pasan por el nudo para cada uno de los grupos. Llamando a los nudos t = 1, ...,T, y 
p(g\t) a las probabilidades de que las observaciones que llegan al nudo t pertenezcan a cada 
una de las clases, se define la impureza del nudo t por 

G 

!(t) = ~ ^2p{g\t) \ogp(g\t) 

9 = 1 


esta medida se llama entropia, es no negativa y mide la diversidad. Se utilizo en la section 
4.2.3 para obtener criterios de proyeccion. Por ejemplo, con dos grupos la impureza es 


I(t) = —plogp — (1 — p) log(l — p) 


Esta funcion esta representada la figura 14.2. Se observa que la heterogeneidad o diversidad 
es maxima es cuando p=.5, y tiende a cero cuando p se aproxima a cero o a uno. 
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Figura 14.2: Representation de la entropia como funcion de la probabilidad de un grupo 

Con G grupos, si en el nudo t todas las observaciones pertenecen al grupo g, de manera 
que p(g\t) = 1, y p(i\t) = 0, i ^ g, la entropia o impureza del nudo es I(t) =0 (tomamos 
OlogO = 0, que es su valor Finite). En otro caso, la impureza sera positiva y sera maxima 
cuando p(g\t) = G~ l . La variable utilizada para realizar la division de los datos en un nudo se 
selecciona minimizando la heterogeneidad o impureza result-ante de la division. Consideremos 
preguntas q posibles del t-ipo: , : es Xj < a ! y sean pg y Pn las proporciones de las observaciones 
del nudo t que iran a los nudos result-antes de responder ” Si” a la pregunta q (nudo tg) y al 
responder ”No” (nudo t^). Llamemos I(ts ) y /(tv) a las impurezas resultantes de estos nudos 
que surgiran como consecuencia de la pregunta q. El cambio en entropia o heterogeneidad 
despues de la pregunta q, sera la diferencia entre la entropia del nudo, J(t), y la entropia 
despues del nudo, que vendra dada por psl(ts ) + p ; -\R(bv)- El cambio en entropia producido 
por la pregunta q es: 


Al ( t , q) = I ( t ) - p s I its) ~ p N I (Lv) (14.22) 

y se desea escoger q para maximizar el cambio de entropia en el nudo. El procedimiento 
es el siguiente: se define un conjunto de preguntas q del tipo Xi < a, para i = 1 ..... p y 
a G (— c»,oo). Para cada pregunta se calcula la disminucidn de impureza o entropia que 
implica y se escoge aquella pregunta que maximice la impureza resultante medida por (14.22). 

La clasificacidn en los nudos terminales se hace asignado todas las observaciones del nudo 
al grupo mas probable en ese nudo, es decir, aquel grupo con maxima p(g\t). Si la impureza 
del nudo es cero, todas las observaciones pertenecen al mismo grupo, y la clasificacidn de las 
observaciones podrfa hacerse sin error, en otro caso, si la impureza del nudo no es cero, la 
clasificacidn tendra un cierto error. 

Este proceso de construction del arbol puede general - muclios nudos cuando el numero de 
variables es grande y se plantea el problema de como simplificar o podar el arbol para hacerlo 
mas manejable con poca perdida de information. Ademas, pueden utilizarse otras medidas 
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de diversidad para realizar las divisiones. No entraremos en los detalles de los algoritmos 
existentes que el lector interesado puede encontrar en Breiman et al. (1984) 

Los arboles de clasificacion suelen dar buenos result-ados cuando muchas de las variables 
de clasificacion son cualitat-ivas y cuando las relaciones entre las variables son muy lineales. 
Sin embargo, son mas ineficaces que los procedimientos clasicos cuando las variables son 
aproximadamente normales. La evidencia disponible sobre su eficacia es distintos tipos de 
problemas es t-odavi'a pequena. 

Ejemplo 14.4 Ilustraremos la idea de los arboles de clasificacion con los datos de MEDIFIS. 
La impureza total de los datos inicialmente es 

I 0 = -(12/27) log(12/27) - (15/27) log(15/27) = .687 

consideremos preguntas del tipo pie< a?. Si tomamus a = 41, y llamamos q\ a la pregunta 
pie<fl? , la muestra se divide en 18 casos con respuesta SI y 9 con respuesta NO. La 
impureza en los nudos resultantes sera: Para el nudo NO, la impureza es cero, porque todos 
los elementos del nudo son hombres. En el nudo SI de los 18 elementos 15 son mujeres y 3 
hombres con lo que la impureza sera 

I{S,qfi) = -(15/18) log(15/18) - (3/18) log(3/18) = .451 

con lo que la impureza resultante con esta pregunta es 

AJ(gi) = .687 - (9/27). 0 - (18/27) (.451) = .387 

Comparemos este resultado con el obtenido con la pregunta q 2 : pie< 40?. Ahora la 
muestra se divide en 16 y 11. La impureza del grupo SI es 

I(S,q 2 ) = -(15/16) log(15/16) - (1/16) log(l/16) = .234 

y la impureza del grupo No es cero. La reduccidn de impureza de esta pregunta es 

A I(q 2 ) = .687 - (11/27). 0 - (16/27)(.234) = .548 

por tanto, es mejor dividir con la pregunta q 2 que con la q\, ya que obtenemos un grupo 
mas homogeneo como resultado de la division. Otras posibles preguntas se analizan de la 
misma forma. 

14.5.2 Redes Neuronales 

Las redes neuronales son algoritmos generales de analisis de datos basados en un uso intensivo 
del ordenador. Su justification proviene de que, en condiciones generales, pueden aproximar 
cualquier funcion del tipo 


y = f(x u ...,x p ) 


Supongamos para simplificar la discrimination entre dos grupos. Ent-onces, y es una 
variable binaria, cero- uno, y el problema es encontrar la funcion / que mejor se ajust-a 
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Figura 14.3: Representation de una red neuronal con una capa intermedia. 

a los datos observados. Las redes neuronales se construyen a partir de elementos llama- 
dos nodos, unidades, o neuronas. Estas unidades reciben un conjunto de entradas, x. que 
representaremos por la variable vectorial x, y calculan una variable escalar de salida apli- 
cando una ponderacion a los componentes de la entrada, anadiendo una constante de sesgo 
y transformando el resultado de forma no lineal como: 

2 = g( w'x) 

donde w es un vector y g una funcion generalmente no lineal. El vector x incorpora una 
variable adicional, x 0 = 1, de manera existe un termino de sesgo w 0 incluido en el vector de 
pesos w' = (u'o . ... ,w p ). Se ban propuesto distintos tipos de funciones g pero la funcion mas 
utilizada en problemas de clasificacion es la funcion logfstica 

git ) = 1/(1 + 0 

que proporcionara una salida entre cero y uno. Otra funcion utilizada es g(t) = sign(t ) 
que produce una respuesta binaria con valores posibles 1 y -1. Por ejemplo, el modelo 
logfstico puede verse como una red neuronal de un solo nodo y funcion g logfstica. Aunque 
existen muchas estructuras de redes neuronales posibles, la mas utilizada para clasificacion 
es el perceptron, que consiste en un conjunto de neuronas clasificadas en capas y cuya 
representation grafica se ilustra en la figura (14.3). Esta estructura contiene cinco neuronas 
de entrada, tres en la capa intermedia y una de salida. 

Las variables de entrada, (x\. .... x p ). que caracterizan al elemento a clasificar se intro- 
ducen por las neuronas iniciales. Por ejemplo, la red de la figura 14.3 es adecuada para 
clasificar elementos donde se han medido cinco variables. En la neuronas iniciales la funcion 
de respuesta es la unidad, es decir x = f(x), y estas neuronas sirven para distribuir las 
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variables x en la segunda capa de neuronas. Supongamos que la capa intermedia cont-iene 
M neuronas (en la figura M = 3), entonces cada neurona intermedia i = 1 , ...,M recibe un 
vector de entrada x, y genera una variable escalar de salida 

Zi = ft(w'xj) (14.23) 

Por ejemplo, en la figura 14.3 la neurona de la capa terminal recibe el vector z = (z\ , z 2 , z 3 )' 
y genera una salida y. Pueden exist.ir varias neuronas terminates y las respuestas de la capa 
intermedia pasan a las neuronas de salida, y cada una de ellas producira una variable de salida 
de acuerdo con una funcion /. Supongamos que existen j = 1, .... ./ neuronas terminates. La 
salida que producira la neurona j sera 

Vj = = /iK G i(^ x )) 

donde w' es la funcion de ponderacion en esta neurona y z j es el vector de entrada a la 
neurona que esta compuesto por las salidas de las neuronas de la capa intermedia. Est-e vector 
de entrada tiene M componentes, tant-os como salidas intermedias, y cada uno viene dado por 
(14.23), por lo que puede expresarse como z j = ( z\j , ... ,ZMj ) = (5 , i(w / i x i), •••, 17 m( w m x m)) = 
Gj(W. x). Por ejemplo, si suponemos que tanto las tres funciones de la capa intermedia 
como la terminal de la figura 14.3 proporciona una respuesta logi'stica, la respuesta final es: 

y = g(w 40 + w 4 iZ! + W 42 Z 2 + W 43 Z 3 ) 

donde g es la funcion logi'stica. Sust.ituyendo z por su expresion, que es una funcion logi'stica 
de las variables de entrada, tenemos finalmente que 

3 

y = g(w 40 + W 4 i ^2 W 4 tg(w-x)) 

i = 1 

La clasificacion se realiza en funcion del valor de la variable y. Por ejemplo, si y > .5 el dato 
se clasifica en la primera poblacion y si y < .5 en la segunda. 

Para llevar a la practica este metodo, hay que estimar los parametros que definen cada 
funcion g, . Por ejemplo, en la red de la figura 14.3 para cada neurona hay que estimar seis 
pesos, el coeficiente constants del sesgo mas los pesos para cada una de las cinco variables, 
lo que supone 6x3 = 18 parametros para la capa intermedia, mas los 6 de la capa final, 
lo que supone un total de 24 parametros. Si llamamos c, a la variable binaria que incluye 
las et-iquet-as de los dat-os, por ejemplo, c, = 1 cuando pertenece a la primera clase y c, = 0 
cuando pertenece a la segunda, la estimacibn de los pesos se obtiene minimizando : 

n n 

E = - y *) 2 = - /( x ’ w )) 2 

i = 1 i= 1 

con respecto a los parametros w o pesos que caracterizan la red. Esta funcion, que es no 
lineal en los parametros, se minimiza frecuentemente con un algoritmo del gradiente, donde 
los pesos se modifican en cada iteration proporcionalmente al gradiente de esta funcion 
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siendo // la longitud de paso. El lector interesado en los det-alles puede acudir a Ripley (1996). 
Las redes neuronales necesitan muestras grandes para estimar eficientemente los muchos 
parametros que se introducen. La experiencia disponible parece indicar que si la estructura 
de la red neuronal se disena bien, en situaciones est-andar pueden dar resultados similares a 
los metodos clasicos, y pueden comport-arse mejor en situaciones donde las relaciones entre 
las variables de clasificacion sean muy no lineales. Sin embargo la experiencia disponible 
es muy limit-ada por la falt-a de reglas precisas sobre el mimero de neuronas a colocar en 
la capa intemedia y los problemas de convergencia de los algoritmos de estimation, dado el 
alto mimero de parametros a estimar. Por ejemplo, supongamos que queremos clasificar en 
4 clases posibles dat-os de dimension 10. Si utilizamos cinco neuronas en la capa intermedia 
y 3 neuronas de salida (necesitamos G — 1 neuronas de salida) esto supone 88 parametros 
a estimar. Un inconvenient-e de las redes neuronales es la falt-a de una t-eon'a que orient-e 
sobre las situaciones en que daran buenos resultados y aquellas en las que pueden ser muy 
ineficientes. 

14.5.3 Metodos no Parametricos 

Vecinos mas proximos 

Un procedimiento de clasificacion simple y que ha dado buenos resultados con poblaciones 
no normales es el siguient-e: 

(1) Definir una medida de distancia entre puntos, habit ualmente la dist-ancia de Maha- 
lanobis. 

(2) Calcular las dist-ancias del punto a clasificar, x 0 , a t-odos los puntos de la muestra. 

(3) Seleccionar los m puntos muestrales mas proximos al que pret-endemos clasificar. 
Calcular la proportion de est-os m puntos que pert-enece a cada una de las poblaciones. 
Clasificar el punto x 0 en la poblacion con mayor frecuencia de puntos entre los to. 

Este met-odo se conoce como to— vecinos proximos. En el caso particular de to — 1 el 
met-odo consist-e en asignarle a la poblacion al que pertenece el elemento mas proximo. Un 
problema clave de este met-odo es claramente la selection de to. Una pract-ica habitual es 
t-omar to = ydfi) donde n g es un tamano de grupo promedio. Otra posibilidad es probar con 
dist-int-os valores de to, aplicarselo a los puntos de la muestra cuya clasificacion es conocida 
y obtener el error de clasificacion en funcion de to. Escoger aquel valor de to que conduzca 
al menor error observado. 

Estimation de densidades 

Si la densidad de las observaciones no es normal y tenemos una muestra grande podemos 
intentar estimar directament-e la distribution de los dat-os. Para clasificar un punto x 0 , no 
necesitamos estimar toda la densidad sino solo la densidad en ese punto, ya que la clasificacion 
se realiza maximizando la probabilidad a posteriori, es decir, maximizando 

maX 7 T g fg{^ 0 ) 

a 

Un estimador ingenuo de la densidad de la poblacion g en el punto x 0 es construir un 
hipercubo con centro en x 0 y lado h. contar los puntos provenient-es de la densidad g incluidos 
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eii el, n g (xo) y estimar la densidad por el cocient-e entre la frecuencia relat-iva de puntos eii 
el cubo y su volumen. Es decir 


fg( x o) 


%( x o) 

n g h p 


Este es un procedimiento similar al de los vecinos mas proximos, pero en lugar de fijar el 
numero m de puntos mas proximos fijamos un entorno h y contamos cuantos puntos de cada 
distribution estan en dicho intervalo. La regia anterior puede escribirse como 


/<?( x o) 


n n hP 


eir 

i=l j = 1 


X%j X 0j 

h 


donde la funcion K se denomina el nucleo y tiene la propiedad 


K 



1, si | Xij — Xoj < h 
0, en otro caso 


Este estimador de la densidad es muy irregular, ya que los puntos o bien entran en el 
hipercubo y contribuyen con valor uno a la densidad en el punto, o no cuentan en absoluto 
para determinar la densidad. Un estimador mejor es permitir que los puntos contribuyan a 
la estimacion de la densidad en funcion de su dist-ancia, lo que puede hacerse sustituyendo 
el nucleo rectangular por una funcion suave que promedie la information de los puntos en 
funcion de su distancia. Un nucleo muy utilizado es el normal, dado por 


K(u) 




El procedimiento puede mejorarse t-eniendo en cuenta la dependencia de las variables y 
utilizando un nucleo multivariante que t-enga en cuanta esta dependencia. Por ejemplo, un 
nucleo normal multivariante conducin'a a : 


= nhv |S | 1/2 ^ eXP (X? “ Sg 1 (X? “ Xo) } 

donde S g es una estimacion de la matriz de covarianzas en el grupo g. En general es frecuente 
t-omar la misma matriz S, y en todos los grupos y estimarla como una media ponderada de 
las matrices de cada grupo. 

El problema de este metodo es que la estimation de la densidad depende crfticamente 
de la election del parametro h. que es desconocido. Puede utilizarse el error de clasificacion 
como comentamos antes para estimar h. Remitimos al lector interesado a McLachan (1992) 
para un estudio det-allado de este t-ema. Mas recientemente algunos autores ban tratado de 
mejorar la idea de vecinos mas proximos introduciendo criterios de invarianza ante rotaciones 
para mejorar las propiedades del metodo, vease Hast-ie y Simard (1998). Otros autores han 
utilizado estimacion no parametrica para estimar directamente las relaciones no lineales de 
clasificacion, vease por ejemplo Hast-ie, Tibshirani y Buja (1994). 
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14.5.4 Otros Metodos 

Un metodo reciente que esta adquiriendo cierta popularidad es el denominado SVM (support 
vector machines), vease Vapnik (2000) y Cherkassky y Mulier (1998). Este metodo adopta 
un punto de vista distinto del habitual: en lugar de buscar una reduction del espacio de 
los datos y resolver el problema en ese espacio de dimension menor busca un espacio de 
dimension mayor donde los puntos pueden separarse de forma lineal. Para entender la 
filosofi'a del metodo definamos problemas separables linealmente. Supongamos que tenemos 
una muestra de n element-os del tipo (y tl x,) donde y, es la variable binaria de clasificacion, 
que, por conveniencia ahora, tomamos con valores posibles -1 y +1 en lugar de cero y uno, 
y Xi e R p es el vector de variables para la observation i. Este conjunto de n datos es 
linealmente separable si es posible encontrar un vector w G R p que defina un piano que nos 
separe perfectament-e las observaciones. Es decir, t-odas las observaciones de un grupo, por 
ejemplo las de y, = — 1 se encuentran a un lado del piano y verifican que w'x, |- b < — 1, 
para un cierto escalar 6, mientras que los puntos del otro grupo con y, = 1 estan al otro lado 
y verifican w'x* + b > 1. Est-as dos desigualdades pueden tambien escribirse conjuntamente 
como 

yi (w'x, + b) > 1 para i — 1, ..., n 
Sea 

/(x;) = w'x,; + b 

el valor del hiperplano de separation optima entre los dos conjuntos para un punto x, . La 
dist-ancia entre un punto cualquiera, x,, y el hiperplano viene dada por la proyeccion del punto 
en la direction w, que es el vector ortogonal al piano. Esta proyeccion se calcula mediant-e 
w'x,/ || w|| . Como los puntos verifican ydw'x, + 6) > 1, maximizaremos las dist-ancias de los 
puntos al piano maximizando 

S/iCw'xj + b) 

|| w|| 

para t-odos los puntos muestrales. Esto ocurrira si el numerador es posit-ivo y el denominador 
tan pequeno como sea posible, lo que conduce al problema de programacidn cuadrat-ica 

nun 1 1 w 1 1 

^(w'xj + 6) > 1, % — 1, ..., n 
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Figura 14.4: Representation de dos clases de puntos separables linealmente en cierto espacio, 
el piano separador f y el vector w ortogonal al piano. 


Cuando los datos no son linealmente separables el procedimiento habitual es proyectar los 
datos sobre un espacio de dimension menor y utilizar funciones no lineales para separarlos 
grupos. Por ejemplo, en discriminacion con dos poblaciones normales multivariantes con 
distinta matriz de covarianzas es frecuente que los datos no sean linealmente separables y 
entonces como hemos vist-o proyect-amos los datos sobre un espacio de dimension menor y 
utilizamos una funcion cuadratica para discriminar sobre las proyecciones en dicho espacio. 
En enfoque del vector soporte (VSM) es aplicar una transformation a los datos que los 
lleve a un espacio de dimension mucho mayor que p y entonces aplicar una discriminacion 
lineal como la que se ha present-ado. La clave del procedimiento es darse cuenta que para 
resolver el problema en un espacio de dimension alt-a solo necesitamos conocer los productos 
escalares entre las observaciones y si definimos adecuadamente un product-o escalar en el 
espacio ampliado t-enemos resuelt-o el problema. Los det-alles tecnicos de implantacidn del 
metodo dejan t-odavi'a muchos interrogantes por resolver y el lector int-eresado puede acudir 
a la referencias indicadas al comienzo de la section. 


14.6 Lect uras complement arias 

El modelo logist-fco se estudia en Hosmer y Lemeshow (1989), Cramer (1991) y Fox (1984). 
Est-os modelos son casos particulares de los modelos lineales generalizado estudiados por 
Me Cullagh y Nelder (1989). Su aplicacion para discrimination se presentan clarament-e 
en McLachlan (1992), que cont-iene numerosas referencias a ot-ros met-odos no present-ados 
en est-e libro. Las redes neuronales para clasificacidn se explican en Hand (1997), Ripley 
(1996), Hertz et- al. (1991) y Bishop (1995). El libro de McLachlan (1992) es una buena 
referenda general para metodos alt-ernat-ivos de discrimination. Vease tambien Fukunaga 
(1990). La t.eoria de aprendizaje estadi'st-ico y su aplicacion para la construction de maquinas 
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de clasificacion se presenta en Cherkassky y Mulier (1998) y Vapnik (2000). 

Ejercicios 

14.1 Escribir la transformacion logit como la diferencia entre las funciones soporte del 
dato a clasificar bajo los dos modelos posibles. 

14.2 Demost-rar que el estimador de /3 0 en el modelo logi'stico si f3 1 — ... = /3 p — 0 viene 
dado por /3 0 = logp/ [1 — p) donde p = J2Ui/ n - Interpretar este resultado. 

14.3 Supongamos que los datos t-ienen observaciones repetidas de manera que para cada 
x, se han observado n t datos y ry de ellos pertenecen a la poblacion con y = 1 y n, --ry a la de 
y = 0. Demost-rar que la funcion soporte puede escribirse ent-onces como L(/3) = E r, log pt + 
EK -D)log(l ~Pi). 

14.4 Demost-rar que si las dos poblaciones bajo consideracion son normales multivariantes 
con distiantas medias y matriz de covarianzas, la funcion logit para clasificar la observacion 
x es /fix) = a + b'x-l x'Ax. determinar la expresion de a, b y A en funcion de los parametros 
del modelo. 

14.5 Demost-rar que para clasificar una observacion en las condiciones del ejemplo 14.2 la 
funcion logi'stica es lineal en los parametros y por lo tant-o el modelo logi'stico puede aplicarse 
analogamente en este caso, aunque el numero de parametros a estimar es mayor. 

14.6 Demost-rar que en el caso de una unica variable explicat-iva, si las observaciones 
de los dos grupos estan separadas, en el sentido de que todas las observaciones con y = 0 
estan en una zona ay < c y t-odas las de y = 1 en la zona ay > c, la funcion soporte es 
L(/3) =^2 Xi>c logpi + J2 x ,<c — Pi) y P or tanto puede t-omar el valor maximo cero si 
hacemos p, = 1 para las observaciones con ay > c y p r = 0 para las observaciones con ay < c. 

14.7 Demost-rar que el ejercicio 14.6 podemos aproximarnos arbitrariamente al valor 
L([3) = 0 t-omando fi 0 = -cfi, y haciendo que fi, sea arbitrariamente grande. 

14.8 Explicar, a la vist-a de los ejercicios 14.6 y 14. 7 porque el met-odo de maxima 
verosimilit-ud va a fallar si t-odas las observaciones estan perfectament-e separadas, en el 
sentido definido en 14.6 
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CLASIFICACION MEDIANTE 
MEZCLAS DE DISTRIBUCIONES 

15.1 FUNDAMENTOS 

En este capftulo volveremos al problema del analisis de conglomerados para analizar la 
homogeneidad de una muestra y encontrar grupos si existen, problema que ya estudiamos, 
desde un punto de vista descript-ivo, en el capftulo 8. En este capftulo supondremos que 
los datos se ban generado por una mezcla de G distribuciones desconocidas y preentaremos 
metodos para identificar los grupor. Hay tres metodos principales para partir una muestra 
heterogenea en grupos mas homogeneos. 

El primero, y mas antiguo, es el metodo de k-medias, (o G medias en nuestra notacion) 
que se presento en el capftulo 8 como un algortimo heurfstico para maximizar una medida de 
homogeneidad al partir la muestra en G grupos. En este capftulo veremos que las hipotesis 
que hagamos respecto a los componentes de la mezcla implican distintos criterios a maximizar 
con el algoritmo de k-medias. 

El segundo, es tratar de estimar los parametros de los componentes de la mezcla y 
clasificar despues las observaciones a los grupos por sus probabilidades de pertenencia a las 
distintas poblaciones. En este capftulo estudiaremos con detalle el caso en el que los datos 
provienen de una mezcla de G poblaciones normales. 

El tercero, es proyectar los punt-os sobre distintas direcciones que separen los grupos lo 
mas posible y clasificar las observaciones en grupos mediant-e est-as proyecciones univariantes. 

Los procedimient-os de partition de la muestra en grupos o conglomerados a partir de la 
hipotesis de que los datos provienen de mezclas de distribuciones, estan relacionados con el 
analisis discriminante que vimos en el capftulo 13. En ambos casos suponemos mezclas, y 
queremos encontrar criterios para asignar nuevas observaciones a las distintas poblaciones. 
Sin embargo, en analisis discriminante suponemos que las poblaciones son conocidas, o ten- 
emos una muestra de cada poblacion (a veces llamada muestra de entrenamiento), donde las 
observaciones estan clasificadas sin error, de manera que podemos estimar los parametros 
de cada distribution. En analisis de conglomerados ni conocemos el numero de poblaciones 
ni disponemos de datos previos de clasificacion, y t-oda la information sobre el numero de 
grupos y su estructura debe obt-enerse de la muestra disponible. 
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15.2 EL METODO de K-MEDIAS para mezclas 

Para obtener criterios que podamos aplicar al caso de conglomerados, volvamos a revisar el 
problema de discriminar entre G poblaciones normales multivariantes N (/x , V g ) , cuando 
se dispone de una muestra de entrenamiento donde se conoce la procedencia de las observa- 
ciones, y sea n g al numero de element.os de la muestra que provienen de la poblacion g, donde 
(7 = 1,... , G, y J2 n g — n. Aplicando los resultados de la seccion 10.2.2, la verosimilitud de 
la muestra sera, sumando los soportes : 

log f (x 1; . . . x n ) = -^2 ylog|V 9 | ~^Y tr ( V 3 ls W) 

9= 1 9=1 

donde S (/xj = A ( x » - /x fl ) (x, - /x ff )' . Segun esta ecuacion la estimacion de cada 
vector de medias, /x g , sera x fl , la media muestral y la funcion soporte concentrada en este 
paramet.ro sera: 


log / (x l5 ■ ■ ■ X n ) = - ^ log \Vg\ - Y tr ( V 9 ^ 

9=1 9=1 

donde 


S 


9 


~ 5Z fc - (x,; 

n 3 i= i 



Supongamos que admitimos la hipotesis V 9 = u 2 I, es decir las variables estan incorreladas 
y t.ienen la misma varianza entre si y en todos los grupos. Entonces, la funcion soporte se 
reduce a: 


log / (xi, • • -x n ) 


np 2 1 

-y log"? -yi 


tr 



y llamando 


w=t"A 

i=l 


maximizar la verosimilitud supondrfa 


minfr(W) 
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que es el criterio de la traza, equivale a minimizar la suma ponderada de las varianzas 
estimadas en cada grupo. Este criterio se obtuvo, por otros metodos, eii el capftulo 8, y es el 
que se utiliza en el algoritmo de k-medias. Tiene la ventaja de ser simple y facil de calcular, 
pero no es invariante ante transformaciones lineales y no tiene en cuenta las correlaciones. 

Si admitimos la hipotesis V f/ = V, la verosimilitud es equivalente a la del problema de 
discriminacion clasica estudiado en el capftulo 13, y viene dada por : 

log/(xi,...x n ) = -|log|V| - ^ tr (^J2ri g Sg 

y la estimacion MV de V es entonces 

¥=V„S,dw, 

n ^ n 

i = 1 

e insertando esta estimacion en la funcion de verosimilitud, maximizar la verosimilitud equiv- 
ale ai 



min I W 


que es el criterio del determinante, propuesto por Friedman and Rubin (1967). Este criterio 
si es invariante a transformaciones lineales, y, como veremos, tiende a identificar grupos 
elfpticos. 

En el caso general en que las poblaciones tienen dist-inta matriz de varianzas y covarianzas, 
la estimacion MV de V 9 es S g y el maximo de la funcion de verosimilitud es 

log/(xi,...x n ) = -ij]n s log|S 9 | - y, (15.1) 

y maximizar esta verosimilitud equivale a: 


min E n g log |S s | (15.2) 

En otros terminos, cada grupo debe tener ”vo lumen” mfnimo. Suponemos que cada grupo 
tiene n g > p + 1, de manera que |S 9 | sea no singular, lo que exige que n > G (p + 1). 

Un criterio adicional propuesto por Friedman y Rubin (1967) es partir de la descom- 
posicion del analisis de la varianza multivariante y maximizar el tamano de la distancia de 
Mahalanobis generaliza entre los grupos dada por W 1 B. De nuevo el tamano de esta matriz 
puede medirse por la traza o el determinante, pero este criterio no ha dado buenos resultados 
en el analisis de conglomerados (vease Seber, 1984). 

Cualquiera de estos crit-erios puede maximizarse con un algoritmo similar al k-medias 
que vimos en la capftulo 8. El criterio del determinante es facil de implementar y, como se 
demuestra en el apendice 15.1, tiende a producir grupos elfpticos, mientras que el de la traza 
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produce grupos esfericos. El criterio (15.2) tiene el inconveniente de que es necesario imponer 
restricciones fuertes sobre el numero de observaciones en cada grupo para que las matrices no 
sean singulares, ya que si el numero de grupos es grande, el numero de parametros a estimar 
puede ser muy alto. En la practica, parece mejor permitir algunos rasgos comunes en las 
matrices de covarianzas y esto no es facil de imponer con este criterio. Ademas, si un grupo 
tiene pocas observaciones y |S 9 | es casi singular, este grupo tendra un peso desproporcionado 
en el criterio y el algoritmo tiende a caer es ese tipo de soluciones. Por esta razon ese criterio, 
aunque tiene interes teorico, se utiliza poco en la practica. 

15.2.1 Numero de grupos 

En la practica el numero de grupos, G. es desconocido y el algoritmo se calcula para distinto 
valores de G. G = 1, 2, .... Comparar las soluciones obtenidas no es simple, porque cualquiera 
de los criterios disminuira si aumentamos el numero de grupos. En efecto, segun el analisis 
de la varianza multivariante, la variabilidad total puede descomponerse como: 


(15.3) 

Intuitivamente, el objet-ivo de la division en grupos es conseguir que B, la variabilidad entre 
los grupos, sea lo mas grande posible, mientras que W, la variabilidad dentro de cada 
grupo, sea lo mas pequena posible. Dada una division cualquiera en grupos, si elegimos uno 
cualquiera de ellos podemos aplicarle de nuevo esta descomposicion, con lo que reduciremos 
de nuevo la variabilidad descomponiendo mas este grupo. Por tanto, no podemos utilizar 
ningun criterio basado en el tamano de W para comparar soluciones con grupos distintos, 
ya que simpre podemos disminuir W haciendo mas grupos. 

Como vimos en el capftulo 8 podemos realizar un test F aproximado calculando la re- 
duction proportional de variabilidad que se obtiene aumentando un grupo adicional. El test 
es: 


T = W + B 


tr(W G )-tr(W G+1 ) 

tr(W G +i)/(n - G - 1) 

y, en la hipotesis de que G grupos son suficientes, el valor de H puede compararse con 
una F con p. pin — G — 1) grados de libertad. La regia de Hartigan (1975), implantada en 
algunos programas informaticos, es continuar dividiendo el conjunto de datos si este cociente 
es mayor que 10. 

Un criterio adicional para seleccionar los grupos es el propuesto por Calinski y Harabasz 
(1974). Este criterio parte de la descomposicion (15.3) y selecciona el valor de G maximizando 


CH = max 


tr(B)/(G - 1) 
tr(W)/(n-G) 


(15.5) 


Ambos criterios parecen funcionar bien en las aplicaciones y estan relacionados (vease los 
ejercicios 15.1 y 15.2) 
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G = 2 

CO 

G = 4 

G = 5 

G = 

eh 

30 

20 

14 

15 

14 

em 

35 

22 

13 

16 

12 

mi 

509 

230 

129 

76 

83 

tm 

15 

11 

9 

9 

9 

tn 

64 

58 

37 

35 

26 

Total 

653 

341 

202 

151 

144 

H 


77.4 

61.5 

30.4 

6.2 

CH 

265.9 

296.3 

356.6 

359.7 

302 


Tabla 15.1: Tabla con la varianza promedio dentro de los grupos para cada variable con 
distinto numero de grupos con el algoritmo de k-medias. 

Ejemplo 15.1 Vamos a comprar los dos criterios para seleccionar el numero de grupos en el 
algoritmo de k-medias con el criterio de la traza para los datos de los paises. Vamos a utilizar 
unicamente las 5 variables demograficas de MUNDODES. Comenzaremos con los resultados 
del programa SPSS. Para decidir el numero de grupos este programa nos proporciona una 
tabla con las varianzas de cada variable dentro de los grupos. La tabla 15.1 resume esta 
information: 

Por filas esta tabla da la suma de cuadrados en todos los grupos para cada variable 
dividida por el numero de grados de libertad de esta suma que es n — G, que es la information 
obtenida directamente del programa, com veremos a continuation. La table total es la suma 
de estas varianzas que es la traza de W. A continuation tenemos los estadisticos H y CH para 
determinar el numero de grupos. Ambos criterios conducen a cinco grupos en este ejemplo. 

Para ilustrar una salida estandar de un programa informatico, la tabla siguiente propro- 
ciona la salida del programa SSPS para 5 grupos. El programa proporciona los centros de 
los cinco grupos y la suma de cuadrados entre los grupos para cada variable dividida por sus 
grados de libertad, G — 1 = 4. Esta es la columna Cluster MS. En la tabla de Analisis de 
la varianza tenemos tambien las varianzas de cada variable dentro de los grupos, que estan 
en la columna Error MS. Esta columna es la que se ha copiado redondeada en la tabla 15.1, 
que contiene la suma de las varianzas de las variables. 

Final Cluster Centers. 


Cluster 

EH 

EM 

MI 

TM 

TN 

1 

64 . 475 

68.843 

37.575 

7.762 

29.868 

2 

43.166 

46 . 033 

143.400 

20.022 

46 . 577 

3 

70.122 

76.640 

11.288 

8.920 

15.017 

4 

57 . 342 

60.900 

74.578 

10.194 

39 . 057 

5 

51.816 

54.458 

110.558 

13.875 

43.008 


Analysis of Variance. 


Variable 


Cluster MS DF 


Error MS 


DF 


F Prob 
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EH 

1805.3459 

4 

15.059 

86.0 

119.8792 

.000 

EM 

2443.0903 

4 

16.022 

86.0 

152.4812 

.000 

MI 

46595.0380 

4 

76.410 

86.0 

609.7986 

.000 

TM 

289.2008 

4 

9.507 

86.0 

30.4191 

.000 

TN 

3473.4156 

4 

34.840 

86.0 

99.6950 

.000 


Tabla Salida del Programa SPSS para 5 grupos con los datos de MUND0DES\ 

Ejercicio 15.1 Se observa en la tabla 15.1 que la variable mi tiene mucha m,as varianza que 
las demas, y, por tanto, va a tener un peso muy importante en la construccion de los grupos, 
que van a hacerse principalmente por los valores de esta variable. La tabla de las varianzas 
muestra que el numero de grupos es cinco, ya que al aumentar a seis la disminucidn de las 
varianzas es muy pequena. 

Para ilustrar el calculo de los estadisticos para determinar el numero de grupos, llam.ando 
MS(G) a la fila de totales en la tabla 15.1, esta fila sera igual a ir(Wc)/(n — G), y el 
estadistico se calcula como 

tr(W G ) - tr(W G +i) (n - G)MS(G) - (n - G - 1)MS(G + 1) 

“ tr(W G+1 )/(n -G- 1) “ MS(G + 1) 

Ejemplo 15.2 donde n = 91 y G es el numero de grupos indicado por colunmas. Asi se 
obtiene la fila de H, y de acuerdo con el criterio de Hartigan escogeriamos cinco grupos. . 

Esta tabla incluye tambien la informacion para calcular el criterio (15.5). El numer- 
ador de esta expresidn es la sum, a de los terminos cluster MS para todas las variables y el 
denominador la sum, a de la columna Error MS. Para G=5 el criterio CH es 

1805.34 + .. + 3473.42 54606 

15.06 + ... + 34.84 ““ 151.8 “ 

y la aplicacion de este criterio lleva tambien a cinco grupos. 

Comparando las medias de la solucion para cinco grupos, vemos que el grupo con menor 
mort alidad infant il es el tres, que incluye los paises de Europa menos Albania, y el de mayor 
mort alidad el dos con los paises m,as pobres de Africa. La figura 15.1 presenta un histogram, a 
de la variable mi. Se observa que esta variable que va a tener un peso dominante en la 
formacion de los grupos indica claramente la heterogeneidad de la muestra. 

Para ilustra el funcionamiento de distintos program, as la tabla siguiente indica la salida del 
programa MINITAB para cinco grupos con las variables sin estandarizar, y estandarizadas 

A. Resultados de MUNDODES, variables sin estandarizar. MINITAB 

Number of Within cluster Average distance Maximum distance 

observations sum of squares from centroid from centroid 
Clusterl 21 10060.590 19.308 57.601 

Cluster2 14 797.147 7.200 10.897 
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10.0 30.0 50.0 70.0 90.0 110.0 130.0 150.0 170.0 


mortal idad infantil 


Figura 15.1: Histograma de la variable mortalidad infantil indicando la presencia de entre 
cuatro y cinco grupos de paises 


Cluster3 

28 

829.039 

5.005 

10.008 

Cluster4 

9 

826.444 

8.724 

15.306 

Cluster5 

19 

2713.755 

11.338 

19.143 


Cluster Centroids 


Variable 

Clusterl 

Cluster2 

Cluster3 

Cluster4 

Cluster5 

tn 

4.4762 

2.7857 

2.7143 

3 . 3333 

4.3684 

tm 

44.5381 

22.8571 

13.4429 

34.1222 

39.0579 

mi 

16.5095 

6.4714 

9.4250 

9.1000 

10.1947 

eh 

124.6333 

23.5500 

9.1143 

45.7111 

74 . 5789 

em 

48.1095 

67.3643 

70.7464 

62 . 4333 

57.3421 


B: Resultados de MUND0DES, variables estandarizadas 



Number of 

Within cluster 

Average distance 

Maximum distance 


observations 

sum of squares 

from centroid 

from centroid 

Clusterl 

20 

14.440 

0.817 

1.275 

Cluster2 

10 

9.932 

0.736 

2.703 

Cluster3 

29 

20.771 

0.792 

1.535 

Cluster4 

22 

32 . 443 

1.134 

2.132 

Cluster5 

10 

6.679 

0.727 

1.621 
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Cluster Centroids 


Variable 

Clusterl 

Cluster2 

Cluster3 

Cluster4 

Cluster5 

tn 

0.6955 

-1.7841 

-0.1214 

0.9070 

-1.2501 

tm 

0.6007 

-0.9921 

-0.9665 

1.2233 

-0.0978 

mi 

-0.3585 

0.3087 

-0.5867 

1.3417 

-0.8421 

eh 

0.3300 

-0.7676 

-0.9455 

1.3758 

-0.1771 

em 

-0.2078 

0 . 5478 

0.9537 

-1.4424 

0.2754 

Salida del 

programa 

MINITAB para 5 

grupos con los 

datos de 

MUND0DES 


con y sin estandarizar . 

Ejemplo 15.3 Este programa nos da la suma de cuadrados dent.ro de los grupos por clusters 
(grupos) en lugar de por variables. Los resultados para datos sin estandarizar son parecido 
pero no identicos, como puede verse comparando las medias de las variables en los grupos. 
Al estandarizar las variables los resultados cambian sustancialmente, al tener un peso m.ayor 
el rest.o de las variables. Los grupos son mas homogeneos por continent.es y en Europa se 
separan los paises occidentales y los orientates. 


15.3 ESTIMACION DE MEZCLAS DE NORMALES 

Un enfoque natural para realizar la subdivision de la muestra en grupos o conglomerados es 
suponer que los datos se han generado como una mezcla de distribuciones normales multi- 
variantes y estimar conjuntamente los parametros de las distribuciones que forman la mezcla 
y las probabilidades a posteriori de cada dat-o de pertenecer a cada una de los componentes 
de la mezcla. Vamos a presentar este enfoque. 


15.3.1 Las ecuaciones de maxima verosimilitud para la mezcla 

Supongamos que los datos provienen de una mezcla de distribuciones 

G 

/( X ) = 

9 = 1 

la funcion de verosimilitud sera 

n G 

i(«|x) = IPX V»(*0) 

i=l g = 1 

y puede escribirse como la suma de G" terminos correspondientes a todas las posibles clasi- 
ficaciones de la n observaciones entre los G grupos. La funcion soporte de la muestra sera 

n n G 

L ( 0 I X ) = 5^ lo g/( x i) = gfgi^i) 

i = 1 i = 1 g = 1 


(15.6) 
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Supongamos que cada / s (x) es normal k-dimensional con vector de medias fi g y matriz de 
covarianzas V 9 , de manera que 6 = (7Ti, 7 Tg, fi 1 , /x G , Vi, V g). Sustituyendo estas 
densidades por su expresion, la verosimilitud sera 

n G ^ 

L ( d l x ) = l V 9 r 1/2 ( 27I ") _ p/2 ex p( ^( x « - - fig)). (15.7) 

1=1 9=1 

Observemos que si hacemos en esta funcion p, g = x, : , la estimation de V g es cero y si 7T fl ^ 0 , 

i /o 

el cociente n g |V S | 7 tiende a infinito y tambien lo hara la funcion soporte. Por tanto, esta 
funcion tiene muchos maximos, ligados a soluciones donde cada densidad viene determinada 
exactament-e por una observacion. Para evitar estas singularidades supondremos que, como 
rm'nimo, hay p observaciones de cada modelo, y trataremos de encontrar un maximo local 
de esta funcion que proporcione un estimador consistent^ de los parametros. 

Un problema adicional de esta funcion de verosimilitud es que las distributions normales 
no estan identificadas, ya que el orden 1 ,...,G es arbitrario. Para resolver est-e problema 
podemos suponer que las distributions corresponden a tt, > tt 2 > ••• > "c: ° 

definir el orden de las distributions por una medida del tamaho de la media o la matriz de 
covarianzas. 

Para maximizar esta funcion con relation a las probabilidades n, hay que tener en cuenta 
que Y-j C g=\ 71 g = 1- Introduciendo esta restriction con un multiplicador de Lagrange en (15.6), 
la funcion a maximizar es 


n G G 

L (°\x) = ^ log S^( x i)-MX] 7r 9- 1 )- ( i5 - 8 ) 

i = 1 9=1 9=1 

Derivando respecto a las probabilidades: 

dL(G\X) y. / 3 (x t ) A o 

971 a wEhVjW 

y multiplicando por 7T g . supuesto tt,j ^ 0 ya. que en otro caso el modelo g es redundante, 
podemos escribir 


n 

AVT 9 = TTig 
i = 1 


donde hemos llamado n, g a : 


_ 7Tg/g(Xi) 

19 EgLi TTgfgi^i) 


(15.9) 


(15.10) 


Estos coeficientes representan la probabilidad de que una vez observado el dato x, haya 
si do generada por la normal / fl (x). Estas probabilidades se denominan a posteriori y se 
calculan por el teorema de Bayes. Su interpretation es la siguiente. Antes de observar x, la 
probabilidad de que cualquier observacion, y en particular la x, : , venga de la clase g es tt,j. Sin 
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embargo, despues de observar x, , esta probabilidad se modifica en funcion de lo compatible 
que sea este valor con el modelo g. Esta compatibilidad se mide por /, y (x,) : si este valor 
es relativamente alto, aumentara la probabilidad de que venga del modelo g. Naturalmente 
para cada dato n ig = 1- 

Para determinar el valor de A, sumando (15.9) para todos los grupos 

n G 

\ = J2^K ig = n 

i = 1 9 = 1 

y sustit-uyendo en (15.9), las ecuaciones para estimar las probabilidades a priori son 


(15.11) 

que proporcionan las probabilidades a priori como promedio de las probabilidades a poste- 
riori. 

Vamos a calcular ahora las estimaciones de los parametros de las distribuciones normales. 
Derivando la funcion soporte respecto a las medias: 


1 

' K 9 = 7 1 7T 


1 l 9" 


dL{6 |X) _ ^ ' K gfg{x)'Vg (Xj fig) 

d Vg Zt EJW*(X) 


0 g = l,...,G 


que puede escribirse como 




i=1 E?=i ^ 


(15.12) 


La media de cada distribution se estima como una media ponderada de todas las obser- 
vaciones con pesos uj % = 7T ig / YH=i n igi donde uJi g > 0, y = 1- Los pesos, a ;* g , 

representan la probabilidad relat-iva de que la observacion i pert.enezca a la poblacion g. 
Analogamente, derivando respecto a V g y utilizando los resultados de la seccion 10.2 obten- 
emos que: 


(15.13) 


que tiene un interpretacidn similar, como promedio de desviaciones de los datos respecto a 
sus medias, con pesos proporcionales a las probabilidades a posteriori. 

Para resolver estas ecuaciones (15.11), (15.12) y (15.13) y obtener los estimadores nece- 
sitamos las probabilidades 7 r ig , y para calcular estas probabilidades con (15.10) necesitamos 
los parametros del modelo. Intuitivamente podn'amos iterar entre ambas etapas y esta es la 
solution que se obtiene con el algoritmo EM. 

15.3.2 Resolucion mediante el algoritmo EM 

Para aplicar el algoritmo EM transformemos el problema introduciendo un conjunto de 
variables vectoriales no observadas (zi, ..., z n ), que tienen como funcion indicar de que modelo 


v = 

v 9 l^i= 1 


E” 


( x * - /b))( x i - K 
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proviene cada observation. Con este objet.ivo, z, sera una variable binaria vectorial G x 1 
que tendra solo un components igual a uno, el correspondiente al grupo del que proviene el 
dat.o Xj, y todos los demas igual a cero. Por ejemplo Xj vendra de la poblacion 1 si z,\ = 1 
y z i2 = z i2 = ... = z iG = 0. Se verificara que Y^=i z ig = 1 y Z)”=i Z)g=i = n. Con estas 
nuevas variables, la funcion de densidad de x, condicionada a Zj puede escribirse 

G 

f (xj/zj) = IJ/stxi)**. (15.14) 

9=1 

En efecto, en z t solo un componente z tg es distinto de cero y ese componente definira cual 
es la funcion de densidad de las observations. Analogamente, la funcion de probabilidades 
de la variable z t sera 


G 

p(zi) = Jj7r/ i9 . (15.15) 

9=1 

Por otro lado, la funcion de densidad conjunta es 


f (Xj, Zj) = /(x i /z i )p(z i ), 


que, por (15.14) y (15.15), podemos escribir 

G 

/(Xi,Zi) = ^(TTg/^Xi))^ 
9=1 


El soporte de la verosimilitud conjunta es 

n n G n G 

L c (0 |X,Z) = 5^1og/(xi,Zi) = ^^^ ff log7T 9 + ^^^ 9 log/ 9 (xj) (15.16) 

i=l i=l ^=1 i=l ^=1 

Si las variables que definen la poblacion de la que proviene cada dato fueran conocidas, 
la estimation de los parametros es inmediata, y la hemos comentado en el problema de analisis 
discriminante. La media de cada componente se estima como promedio de las observations 
generadas por el componente, que puede escribirse 

n G 
i= 1 9=1 

y la matriz de covarianzas de cada grupo se calculara teniendo en cuenta solo las observations 
de ese grupo mediante 


n G 

V 9 = “^9)(Xi -X 9 )'. 

i= 1 9=1 
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Sin embargo, el problema es que ahora las variables de clasificacion no son conocidas. La 
solucion que proporciona el algoritmo EM es estimar las variables z ig mediant.e las probabil- 
idades a posteriori, y despues utilizar estas formulas. 

El algoritmo EM comienza con una estimacion inicial 6 \ En el paso E calcularemos el 
valor esperado de las observaciones ausentes en la verosimilitud completa (15.16) condicio- 
nando a los parametros iniciales y a los datos observados. Como la verosimilitud es lineal en 
z ig , esto equivale a sustituir las variables ausentes por sus esperanzas. Las variables ausentes, 
z ig , son variables binomiales con valores 0,1, y 

E(Zig/X,d (0) ) = p{Z ig = 1/X,0 (O) ) = p(Zig = 1, / 'X* ,0^ ) = 7 

donde es la probabilidad de que la observacion x, venga del modelo j cuando ya se ha 

~( 0 ) 

observado x, y los parametros de los modelos son los dados por 6 . Estas son las proba- 

bilidades a porteriori que se calculan por (15.10) utilizando como valores de los parametros 

— .( 0 ) 

los especificados en 6 . A1 sustituir las variables ausentes por sus esperanzas se obt-iene 

n G n G 

L c(o i x ) = log + 77 log ^( x i) 

i=l g= 1 i= 1 < 7=1 

En la etapa M se maximiza est-a funcion respecto a los parametros 6. Observemos que los 
parametros i\ g aparecen solo en el primer termino y los de las normales solo en el segundo. 
Podemos pues obtenerlos independientement-e. Comenzando por los 7T g , estos parametros 
estan sujetos a que su suma debe ser uno, por lo que la funcion a maximizar es 

n G G 

^ log 77 9 ~ a E 77 9 - x ) 

i= 1 9=1 9=1 

que conduce a (15.11) con los valores i Ti g ahora fijos a . Para obtener los estimadores 
de los parametros de la normal, derivando el segundo termino se obtienen las ecuaciones 
(15.12) y (15.13), donde ahora las probabilidades 7T ig son iguales a 7r fg. La resolucion de 

-(i) 

estas ecuaciones conduce a un nuevo vector de parametros, 0 , y el algoritmo se itera hasta 

obtener convergencia. En resumen, el algoritmo es: 

1. Partir de un valor 0 ) y calcular con (15.10) 

2. Resolver (15.11), (15.12) y (15.13) para obtener 6 = (7r,/z,V) 

3. Volver con est-e valor ale iterar 1 y 2 hasta convergencia. 

15.3.3 Aplicacion al analisis de conglomerados 

Se han propuesta distintas implementaciones de las mezclas de normales para resolver proble- 
mas de conglomerados. En nuestra opinion el metodo mas prometedor es debido a Banfield y 
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Raftery (1993) y Dasgupta y Raftery (1988), que han disenado un metodo basado eii mezclas 
de distribuciones normales y un algoritmo, MCLUST, que funciona bien en la pract-ica. La 
bases del procedimiento son comenzar el algoritmo EM con una estimacion inicial obtenida 
mediante analisis jerarquico y reparameterizar las matrices de covarianzas para que puedan 
tener partes commies y partes especi'ficas. En si'ntesis el procedimiento consiste en : 

1. Seleccionar un valor M para el maximo numero de grupos y reparametrizar las 
distribuciones normales que forman los grupos. 

2. Estimar los parametros de la mezcla con el algoritmo EM para G = 1 , ...,M. Las 
condiciones iniciales del algoritmo se establecen con un metodo jerarquico de los estudiados 
en el capi'tulo 9. 

3. Seleccionar el numero de grupos por el criterio BIC. 

Vamos a analizar cada una de estas etapas 

Reparametrizaciones 

Un inconveniente de la parametrizacion habitual de las mezclas de normales es que las 
matrices de covarianzas se suponen o bien iguales, resultando en p(p + l)/2 parametros, 
o bien desiguales, con Gp(p + l)/2 parametros. Si la dimension del espacio es grande y 
podemos tener mucho grupos, suponer que todas las matrices son distintas puede implicar 
un numero gigantesco de parametros que puede hacer la estimacion mediante el algoritmo 
EM muy lenta e incluso impracticable. 

Una solucion propuesta por Banfield y Raftery (1993) es parametrizar las matrices de 
covarianza por su descomposicion espectral como 

V, = X g C g A g C' g 

donde C g es una matriz ortogonal con los vectores propios de \ g y x g A 9 es la matriz de 
valores propios, siendo el escalar X g el valor mayor propio de la matriz. Recordemos que los 
vectores propios de la matriz indican orient-acion, mientras que los valores propios indican 
tamaho, en el sentido de volumen ocupado en el espacio por el grupo. De esta forma podemos 
permitir que las orientaciones de ciertos grupos sean distintas, o que el tamaho de ot-ros sea 
distinto. Por ejemplo, podemos suponer que el tamaho es el mismo pero las orientaciones 
son diferent-es. Entonces \ g = XC g AC' g . No entraremos en los detalles, que el lector puede 
consultar en Dasgupta y Raftery (1998) y las referencias que allf se indican. 

Numero de Grupos 

El criterio para seleccionar el numero de grupos es minimizar el BIC. Vimos en la seccion 
10.5.3 que el criterio de Schwartz aproxima las probabilidades a posteriori de cada modelo. 
Sust-it-uyendo la expresion de la verosimilitud en el maximo de la mezcla de normales en la 
expresion del BIC y eliminando constantes, este criterio en este caso equivale a: 

BIC = min n g log \S g \ + n(p, G ) In n 

donde n (p. G ) es el numero de parametros en el modelo. Conviene indicar que, aunque este 
criterio parece funcionar bien en la pract-ica para escoger el numero de grupos, las hipot-esis 
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de regularidad que se efectuan para deducir el BIC como aproximacion de la probabilidad a 
posteriori no se verifican en el caso de las mezclas, por lo que este criterio puede aplicarse 
como una gui'a y no como una regia automatica. El criterio AIC es 

AIC = min E rig log |S g | + n(p : G)n 


15.4 METODOS BAYESIANOS 

15.4.1 Estimacion Bayesiana de Mezclas de Normales 

El enfoque bayesiano puede aplicarse a la estimacion de mezclas de distribuciones. Hemos 
visto en la seccion 15.3 que la verosimilitud de una mezcla contiene G" terminos, correspon- 
dientes a las posibles asignaciones de las n observaciones de la muestra a las G poblaciones 
posibles. A1 multiplicar por la prior, p(0) . la posterior tendra t.ambien G n terminos y salvo 
en el caso de n muy pequeno es inmanejable. 

La introduccion de variables faltantes ha permitido resolver la estimacion mediante el al- 
goritmo EM. Este mismo enfoque lleva a una solucion rapida del problema mediante Muestreo 
de Gibbs. Introduciendo las variables no observadas, z,, , tenemos que, conocida z,, la den- 
sidad de x* es normal multivariante, con parametros determinados por la componente de z, 
igual a uno. Podemos escribir 

G G 

K^e) ~ ,]\vp) 

9=1 9=1 

por otra parte, la variable z* tiene una distribucion multinomial con parametros 

f(zi\6) ~ M G (l;7r i i,...,7r iG ). 


Est-as dos funciones determinan la verosimilitud de la muestra 

n 

£(d\X,Z) = JJ/(x i |z i 6»)/(z i |6») 

i = 1 

que sera el producto de 2 n terminos: n distribuciones normales con parametros determinados 
por las componentes de z, dist-intos de cero y n coeficientes 7i tg . determinados tambien pol- 
ios z i . 

Los problemas de singularidad indicados al estudiar la verosimilitud de distribuciones 
mezcladas se acentiian si tomamos distribuciones impropias, por lo que en la estimacion de 
mezclas conviene tomar distribuciones propias. Eligiendo distribuciones conjugadas, tomare- 
mos una distribucion de Dirichlet sobre las proporciones de la mezcla, una normal para la 
media dada la varianza, y una de Wishart para la precision. Es decir, a priori 

P( tt) D (a) 

PiVilVi 1 ) ~ Nptn^Vi/mo) 
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p(Vi X ) ~ W p (mi o, Mi/rriio) 

La posterior de los parametros y las observaciones faltantes dados los datos sera 


p(e, z|x) = /(x \e, z)f{z\0) P {0) = *(0|x, z ) P (e) 


Podemos aplicar el Muestro de Gibbs para obtener muestras de esta distribucion. La idea 
es muestrear iterando entre las dos distribuciones condicionadas p(0|X, Z) y p(Z|X, 6). En 
la primera suponemos una asignacioii de las observaciones entre los grupos y obtenemos 
la estimacion de los parametros. Esta distribucion es facil de obtener como veremos, ya 
que cada observacion queda identificada dentro de un grupo. En la segunda suponemos 
un valor para los parametros y calculamos la probabilidad de que cada observacion venga 
de cada grupo. De nuevo esta distribucion es facil de obtener. A1 final, tendremos un 
conjunto de muestras de Monte Carlo de estas distribuciones, (0 (1 \ Z^), ...., (0 (JV \ Z (A '*). 
Los valores (0 (l \ permitiran estimar la distribucion a posteriori de los parametros 

dados los datos, mientras que las secuencias (ZJ V K ..... Z LVj j proporcionaran las probabilidad 
a posteriori de que cada observacion pertenezca a cada grupo, dados los datos. 

Comencemos con el muestreo de p(6 |X, Z). Fijado Z = Z Ul> , podemos, para cada grupo, 
obtener una muestra de valores de los parametros como sigue: 

(1) Para cada media con 

pUqvp.x, z<‘>)~Af p (M sp ,v sp ) 

donde la media a posteriori se calcula de la forma habitual, pero utilizando solo las observa- 
ciones que han sido clasificadas en Z {g) como pertenecientes al grupo g : 

%oM 3 o + n g (ZW)5t g (ZW) 

M 9P n g0 +n{ ZW) 

donde n fJ ( Z (ll> ) es el numero de observaciones en el grupo g dado por 

n 

n s (Z ( ' ,) ) = E^ 

i= 1 


y x 3 ( Z (h) ) la media de estas observaciones, dada por 

= km %X 


E n 

i= i z < 


*9 


Analogamente, la varianza de la posterior sera 

V = Xi 

» 5 „ + n s (Z (*))• 


(2) Para las matrices de precision con 

p^-^Z^) ~W p (m gp ,M gP ) 
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donde 


TTflgp 'ftgO 4“ TTlgO 


y 

M^ 1 = mgoM- 1 + n g ( Z {h) )S g + (x g - M s o)(x g - M 9 o)', 
y la varianza muestral en cada grupo se estima con las observaciones de ese grupo por 

n 

n 9 (^ h) )Sg = ^2 z ig(Xi -x)(Xi -x)'. 
i=l 

(3) Para las probabilidades con 

p(tt s |X, Z^)~ D(a 1 + m(Z^), a G + n G (Z^)). 

Una vez obtenido el vector de parametros 0 l9> obtendremos un nuevo valor de Z = Z (fJ 1 ]> 
mediante: 

(4) Simular Z = (z v ...,z n ) de 

/( Z j|X, 0 (*))~M g ( 1; 7r a (0 (g) ), tt iG (0^)), 


donde las probabilidades a posteriori de las observaciones vienen dadas por: 


n 9 (« ,e) ) 


K a fg(x 


Un problema adicional en la estimacion mediante muestreo de Gibbs es la falta de identi- 
ficacion de los component-es de la mezcla, que senalamos en la seccion 15.3.3. Una posibilidad 
es introducir un orden entre las distribuciones, pero esta solucion puede no ser siempre ade- 
cuada. Vease Stephens (2000) y Celeux y otros (2000) para discusiones recientes de est-e 
problema. 


15.5 METODOS DE PROYECCION 

Una alternativa a los metodos anteriores es buscar direcciones de proyeccion de los datos 
donde puedan aparecer los distintos grupos y despues buscar los grupos sobre est-as direc- 
ciones univariantes. Alternativamente podemos proyectar sobre dos direcciones, un piano, y 
buscar grupos en el piano. La ventaja de este enfoque es que no necesitamos especificar a 
priori el numero de grupos, ni comparar soluciones con numero de grupos muy distintos. 

Una intuicion sobre las posible buenas direcciones de proyeccion nos lo proporciona el 
siguiente resultado: supongamos que tenemos una muestra donde cada dato puede venir 
de una de dos poblaciones normales que tienen la misma matriz de covarianzas, que es de- 
sconocida, y medias distintas, tambien desconocidas. La procedencia de cada observacion 
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es tambien desconocida. Se desea encontrar una direccion de proyeccion de las observa- 
ciones que nos proporcione, si es posible, la maxima separacion entre las poblaciones. Puede 
demostrarse que aunque no conocemos la procedencia de cada obervacion es posible clasificar 
con la funcion lineal discriminante, que sabemos es optima para clasificar en est-e problema. 
Si suponemos que la probabilidad de que cada dato venga de cada una de las dos poblaciones 
es la misma, Pena y Prieto (2000) han demostrado que entonces la direccion que minimiza la 
kurtosis de la proyeccion es la funcion lineal discriminante de Fisher (vease el apendice 15.3). 
Est-e result-ado puede ext-enderse a varias poblaciones: las reglas opt-imas de clasificacion de 
Fisher se obtiene minimizando la kurtosis de las proyecciones. 

Este result-ado sugiere separar los grupos buscando las direcciones que nimimizan la 
kurtosis y proyectando los dat-os sobre estas direcciones. Como es posible que ademas de los 
grupos existan dat-os at-fpicos aislados, o grupos muy pequenos alejados del resto, y hemos 
vist-o en el capi'tulo 4 que est-os at-fpicos se manifiestan en las direcciones con maxima kurtosis, 
podemos pensar en un algortimo que incluya en la busqueda tambien estas direcciones. Est-o 
conduce al siguient-e met-odo propuesto por Pena y Priet-o (2001b): 

(1) Comenzar proyectando los dat-os sobre las direcciones que maximizan el coeficient-e 
de kurtosis de los dat-os proyectados. A continuacion proyectar los dat-os sobre el espacio 
ort-ogonal a la direccion encontrada y seleccionar ahora la direccion sobre ese subespacio 
donde se maximiza el coeficient-e de kurtosis. Repetir el proceso de proyeccion ortogonal a 
las direcciones ya encontradas y seleccion de una nueva direccion maximizando la kurtosis. 
De est-a manera se obtienen p direcciones ortogonales de proyeccion. 

(2) Repetir el calculo de direcciones de (1) pero ahora buscando direcciones que minimizan 
el coeficient-e kurtosis. 

(3) Explorar cada una de est-as 2 p direcciones para encontrar grupos y dat-os ati'picos 
de la forma siguient-e. Se obtienen los estadi'st-icos ordenados de los dat-os proyectados y se 
consideran los saltos ent-re estadi'sticos ordenados. Si los dat-os proyectados provienen de una 
distribution unimodal, estos salt-os deben t-ener una paut-a conocida, con salt-os grandes en 
los extremos y pequenos salt-os en el centro de la distribution. 

Para decidir cuando se produce un salt-o sobre una direccion se ut-ilizan las propiedades de 
los estadi'st-icos de orden. Puede demostrarse que si tenemos una muestra de dat-os normales 
y los transformamos con su funcion de distribution, los estadi'st-icos ordenados de los dat-os 
transformados tienen una distribution uniforme, y entonces puede estudiarse facilment-e la 
distribution de los espacios o salt-os. Por esta razon el procedimiento estandariza los dat-os 
proyectados con la funcion de distribution inversa de la normal univariante antes de comenzar 
a buscar salt-os en los dat-os proyectados. El algoritmo para explorar las direcciones es: 

1. Para cada direccion d*,, k = 1 , . . . , 2p, se calcula la proyeccion de los dat-os sobre ella 
mediante Uk% = x'd*,. 

2. Se estandarizan las observaciones , Zki = ( Uki — rrik)/sk, donde to*, = Yli u ki/ n es 
media de las proyecciones y s\ = J2i( u ki ~ m k) 2 /( n ~ 1) su varianza. 

3. Se ordenan las proyecciones para cada k, y se obtienen los estadi'st-icos ordenados 
Zk{i). A continuacion est-os estadi'st-icos se transforman con la funcion de distribution 
inversa de la normal est-andar Zki = 4 >_1 (^fc(p)- 
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4. Se calculan los espacios, que son las diferencias entre valores consecut.ivos de los es- 
tadi'sticos de orden transformados = z k ,i + i — z k i- 

5. Se buscan valores altos de los espacios j kt . que corresponderan a huecos en la distribu- 
cion de los datos. En efecto, si el estadfstico de orden trece es 10 y el de orden catorce 
20 el espacio es 20-10=10 y si este valor es mucho mayor que los otros espacios indica 
que hay un hueco sin datos entre estos valores, que puede corresponder a la sepacion 
entre dos grupos de datos. Un valor alto del espacio indicara la presencia de mas de un 
grupo de datos. Para determinar los valores altos de introducimos una constants, 
k — 1 — 0.1 1 / ra /p 1 °/( 3n ), donde k se calcula a partir de la distribucion de los espacios 
(vease Pena y Prieto para los detalles), y decidimos que comienza un nuevo grupo de 
datos cuando 7 fc ■ > k . En concreto, definimos iok = 0 y calculamos 

r = inf{n > j > i ok ■ l k j > K }- 
o 

Si r < oo, esto indica la presencia de varios grupos, en otro caso se pasa a analizar la 
direccion siguiente. 

6. Marcar todas las observaciones l que verifican z ki < z kr como pertenecientes a grupos 
diferentes que las que verifican z k i > z kr . Hacer i ok = r y volver a 5 para repetir la 
busqueda de huecos en los datos. 

Despues de este analisis se realiza un paso final para asignar las observaciones a los grupos 
identificados, como sigue. 

1. Sea G el numero de grupos identificados, se ordenan los grupos por numero de obser- 
vaciones de manera que el grupo 1 es el mayor y el G el menor. Suponemos que las 
observaciones se han renumerado de manera que ahora las observaciones i g - 1 + 1 to i g 
pertenecen al grupo g (i 0 = 0 and icj = >>)■ 

2. Para cada grupo g = 1, ... ,G : 

(a) Se calcula la media y la matriz de covarianzas de las observaciones del grupo si 
hay la menos p + 1 datos. 

(b) Calcular las distancias de Mahalanobis para todas las observaciones que no estan 
en el grupo g, 

D j = ( x i - m g)' s g 1 ( x i - m <?)> 3 < Vi. 3 > i 9- 

(c) Asignar al grupo g las observaciones que satisfacen Dj < Xp,o. 99 - 

(d) Si ninguna observacion se reclasifica ir al grupo g + 1. En otro caso, renumerar 
las observacione como en 1 y repetir el proceso para el mismo grupo g. 
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15.6 Lecturas complement arias 

La literatura sobre los metodos aquf present-ados es extensa. Anderberg (1973), Everitt 
(1993), Gordon (1981), Hartigan (1975), Mirkin (1996) , Spath y Bull (1980) y Spath (1985) 
estan dedicados a met-odos de agrupamiento y presentan los metodos clasicos. Las ideas de 
proyeccion y estimacion de normales son mas recientes y est-an descrit-os en arti'culos. Banfield 
and Raft-ery (1993) and Dasgupt-a and Raft-ery (1998) describen el algoritmo Mclust para 
estimar mezclas de normales. Para metodos de proyeccion vease Friedman (1987), Jones and 
Sibson (1987), Posse (1995), Nason (1995) y Pena y Prieto (2001). 

EJERCICIOS 

Ejercicio 15.2 Demostrar que el criterio de Hartigan para el algoritmo de k-medias equivale 
a continuar anadiendo grupos hasta que tr(Wc) < tr(Wc + i)(n — G + 9 )/(n — G — 1) 
(Sugerencia utilizar que tr( W) = SCDG, e imponer la condicion de que el valor de F sea 
mayor que 10) 

Ejercicio 15.3 Demostrar que para n grande el criterio de r Calinski y Harabasz para el 
algoritmo de k madias equivale aproximadamente a seleccionar el numero de grupos G si 
tr(W G ) < tr(W G+ i)G/ (G — 1) 

Ejercicio 15.4 Demostrar que en la estimacion de mezclas de normales, si las distribuciones 
tienen V 9 = cr 2 y I, la estimacion MV de cr 2 se obtiene con cr 2 = ]G" =1 (x, ; — p g )'{'x. i — 

Ejercicio 15.5 Demostrar que si tenemos una mezcla de g poblaciones normales N^p^ V ) 
con distinta madia pero la misma matriz de covarianzas y con probabilidades 7Tj con )T7 7Tj = 
1, si proyectamos las observaciones sobre una direccion u y llamamos z = u'x a los datos 
proyectados, su madia es E(z) = m = u'p donde p = ^i^iPi y su varianza var(z) = 
u'{V + B)u, donde B = J2i n i(Pi ~ d)(/b ~ O)' ■ 

Ejercicio 15.6 Demostrar que en el ejercicio anterior el cuart.o momenta de los datos 
proyectados es 3 (u'(V + B)u ) 2 — 3 ( u'Bu ) 2 + Ki(u' Biu) 2 . 


APENDICE 15.1 COMPARACION DEL CRITERIO DE LA 
TRAZA Y EL DETERMINANTS 

Supongamos, para simplificar dos grupos. Est-udiemos, en primer lugar, como aumenta la 
variabilidad dentro del primer grupo al incluir un nuevo elemento del segundo. Supongamos 
que el primer grupo tiene n puntos (x, , x r J con centra en m, y le anadimos un nuevo 
punto, x*. La nueva media al incluir ese elemento sera, llamando d = (x* — m) 

* 1 , 
m = mH d 

n + 1 


y el cambio en la matriz de suma de cuadrados 

1 


W* = ^(x, — m- 


n + 1 


d)(xj 


rn- 


n + 1 


d)' 
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descomponiendo esta suma en la de los primeros n elementos originales del grupo mas el 
ultimo, tenemos que 

n 


W* = W+ 


(n + 1) : 


r dd 7 + (x* — m*)(x* — m*) / 


y como 


* * 

x — m = 


sust.ituyendo, tenemos finalmente que: 

W* = W 


n 


n + 1 


n 


n + 1 


-dd' 


Con el criterio de la traza, el cambio en la matriz W es: 


(15.17) 


77 

tr (W* - W) = —tr( dd') = 


n 


-d'd 


n+1 n+1 

y el cambio sera mi'nimo si incluimos el punto de minima distancia euclidea respecto al 
centro de grupo. Por un razonamient.o analogo, podemos analizar el problema simetrico de 
la disminucion de variabilidad al eliminar un elemento de un grupo y concluir que el criterio 
de la traza lleva a minimizar las distancias euclideas entre los puntos y sus medias de grupo. 

Analicemos el criterio del determinante. Suponiendo en (15.17), para simplificar el ra- 

n . 

zonamiento, que es la umdad, tenemos que: 


n + 1 


|W*| — IWI = |W + dd'l — |W| 


(15.18) 


y como: 


|W + dd'| = |W(I + W _1 dd')| = |W| |I + W _1 dd'|, (15.19) 

y, por otro lado, al tener W 'deb rango uno: 

|I + W _1 dd'| = n(l + Ai) = 1 + Al = l + *r(W _1 dd') 

= 1 + £r(d'W _1 d) = 1 + d'W _1 d, 

con lo que concluimos con la relacion 

|W + dd'| = |W| + |W|d / W _1 d. 

Sustituyendo ahora este valor en (15.18), result.a que minimizaremos el efecto de anadir 
un punto sobre el determinante si minimizamos: 

|W|d / W _1 d, 

que equivale a minimizar la distancia de Mahalanobis entre el punto y el centro de los 
datos. Podemos concluir que, en general, el criterio de la traza minimiza distancias euclideas, 
mientras que el del determinante minimiza distancias de Mahalanobis. 
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CORRELACION CANONICA 


16.1 INTRODUCCION 

El analisis de correlaciones canonicas es debido a Hotelling. Este investigador estudio en 
1936 la relacion entre resultados de test de capacidad intelectual y medidas fi'sicas de un 
grupo de personas. Hotelling pretendfa investigar las relaciones entre ambos conjuntos de 
variables y conocer cuantas dimensiones independientes t-eni'a la relacion existente entre ellas. 
En general, correlacion canonica se ut-iliza cuando un conjunto de variables multivariantes 
puede dividirse en dos grupos homogeneos (por criterios economicos, demograficos, sociales, 
etc.), y se desea estudiar la relacion entre ambos conjuntos de variables. En particular, los 
dos grupos pueden corresponder a las mismas variables medidas en dos momentos distintos 
en el tiempo, el espacio,..., etc. 

Supongamos que disponemos de un conjunto de datos de n individuos y k variables 
que pueden subdividirse en dos grupos: el primero incluye p variables y el segundo q, donde 
p+q = k. Por ejemplo, las primeras p variables representan las inversiones realizadas por una 
empresa y las restantes q variables representan dist-int-as medidas de beneficios. Es posible 
que p = q. Por ejemplo, cuando medimos las p variables en el instante t y en el instante t + 1. 
Llamaremos X en este capftulo a la matriz n x p que contienen los valores de las p primeras 
variables en los n element-os (individuos, pafses, empresas, etc...) e Y a la matriz (n x q) 
que contienen los valores de las q segundas variables medidas sobre esos mismos n element-os. 
Para medir la relacion entre ambos conjuntos vamos a buscar una combinacion lineal de las 
p primeras variables que t-enga la maxima correlacion con una combinacion lineal de las q 
segundas variables. Es decir, llamando: 

v 

x* = Xq = cqxj 

i= 1 

a una combinacion lineal de las variables del primer grupo, y: 

y* = = 

3 = 1 

a una combinacion lineal de las variables del segundo, se desea encontrar los vectores ct y (3 
tales que las nuevas variables x* e y* tengan maxima correlacion. 
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Es posible que una vez encontrada la primera relacion entre est-as dos variables indicado- 
ras no exist-a mas relacion entre ambos conjuntos de variables y entonces decimos que t-oda 
la relacion entre ambos conjuntos se resume en una dimension. Para comprobarlo, podemos 
buscar una segunda variable indicadora del primer conjunto, que este incorrelada con la 
primera, y que tenga correlacion maxima con otra variable indicadora del segundo conjun- 
to. Procediendo de esta manera, podemos obtener r = rnin(p. q ) relaciones entre variables 
indicadoras de ambos grupos que pueden ordenarse por orden de importancia. Determinar 
el numero de relaciones entre las variables (variables indicadoras incorreladas de un conjun- 
to relacionadas con el otro) permite juzgar cuantas dimensiones distintas t-iene la relacion. 
En el analisis de correlacion canonica ambos conjuntos de variables se consideran simetri- 
camente, pero es posibles que queremos exp li car el conjunto de variables dependientes Y 
mediant-e las independient-es X. El procedimiento habitual (regresion multiple) es construir 
un indicador de la variables dependientes y relacionarlo con las independientes mediante una 
regresion multiple. Este procedimiento es razonable cuando exista solo una dimension en 
la relacion, pero puede ser enganoso si existen varias. El analisis de correlacion canonica 
permite determinar cuantas dimensiones relevantes t-iene la relacion entre ambos conjuntos 
de variables. 


16.2 Construccion de las variables canonicas 


16.2.1 La primera variable canonica 

Supondremos que x es un vector p x 1 con distribucion iV p (0, Vn) e y un vector g x 1 
con distribucion N q (0, V 22 ), de manera que las variables est-an medidas en desviaciones a la 
media. Entonces, construyendo el vector (p + q) x 1 con t-odas las variables, [x , y , ] / , la matriz 
de covarianzas para el conjunto de t-odas las variables es: 


V X)J/ — E 


( 

X 

r / n \ 

" V n 

v 12 ' 

{ 

y. 

[ x y ] ) = 

. v 21 

v 22 _ 


Queremos encontrar dos vectores, ac y (3, que definan dos nuevas variables escalares, 
x* = a'x , y* = /3' y, con maxima correlacion. El coeficiente de correlacion entre x* e y* es: 


p(x*y*) = 


E [ ct'x.y'(3\ 


que puede escribirse: 


P = 


E [o'xx'ck ] 1 ^ 2 [f3'yy’ j3] 1 ^ 2 
0 ^ 12/3 

;a / V 11 a) 1 / 2 (/3 / V 2 2/3) 1 / 2 ’ 


Como nos interesa la magnitud, y no el signo, de la correlacion vamos a maximizar 
el cuadrado de la correlacion entre (x* . y*) respecto a a. y (3. Para ello, impondremos la 
condicion de varianzas unitarias, es decir, 


Var(x*) = a'V n a = 1 


(16.1) 
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Var(y *) = (3'\ 22 (3 = 1 


(16.2) 


y la funcion objet-ivo es: 


Maximizar p 2 = - — ; 


(«'V 12 /3) s 


a'Vna) (/3'V 22 /3) 


(16.3) 


con las restricciones (16.1) y (16.2). Introduciendo estas restricciones mediante multipli- 
cadores de Lagrange, la funcion a maximizar es: 

M = (a'Vi 2 (3) 2 - A (a'Vna - 1) - p (f3'V 22 f3 - 1) . 

Derivando, respecto a los vectores de coeficientes y escribiendo los resultados como vector 
columna, ut.ilizando que V' 12 = V 2 i: 


<9M 

da. 


= 2 V 12 /3 - 2AV n a, 


(16.4) 


dM 

~dp 


— 2V 21 a — 2 pV 22 (3. 


Igualando a cero estas ecuaciones, se obtiene: 

Vi 2 /3 = AVna 


(16.5) 


(16.6) 


V 21 a — pV 22 {3. 


(16.7) 


Para resolver este sistema, multipliquemos la primera ecuacion por a' y la segunda por 
1 3 ' y utilicemos las igualdades (16.1) y (16.2). Entonces: 


a'V i 2 /3 =Aa'V n a =A, 


/3 / V 21 a =p/3'V 22 /3 =/i, 

y como A = (a'Vi 2 /3) = (/3'V 2 ia) = p, concluimos con el sistema: 

V 12 /3 =AV n a, (16.8) 

V 2 ia =AV 22 /3. (16.9) 

Despejando (3 de la segunda ecuacion, (3 = A~ 1 V 22 1 V 2 ia, y sustituyendo en la primera: 

Via (A _1 VJ 2 1 V 21 ) « = AV n a 

que conduce a: 

(V b/ V 12 V 2 2 V 21 ) a = A 2 a. (16.10) 
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Por tanto, a es el vector propio ligado al valor propio A 2 
dimension p: 


de la matriz cuadrada de 


Apxp = V n 1 V 12 V 22 1 V2 1 (16.11) 

con valor propio A 2 . Analogamente, se obtiene que (3 debe ser el vector propio ligado al valor 
propio A 2 de la matriz 


B qxq = V 22 1 V 21 V n 1 V 12 . (16.12) 

Observemos que, por (16.3) y (16.10), A 2 = p 2 = p 2 es el cuadrado del coeficiente de 
correlacion entre las variables canonicas x* . y* . por lo que tendremos que tomar el vector 
propio ligado al mayor valor propio. 

En resumen, la solucion buscada requiere: 

1. construir las dos matrices cuadradas de dimensiones p y q. A y B definidas por (16.11) 
y (16.12). El vector propio asociado a su maximo valor propio (que es el mismo en 
ambas) proporciona las variables canonicas. 

2. Este mayor valor propio de ambas matrices es el cuadrado del coeficiente de correlacion 
entre las variables canonicas. 

Observemos que de las ecuaciones (16.8) y (16.9) resulta: 

a = V^Vi^A' 1 (16.13) 

(3 = Vj 2 1 V 21 a A" 1 (16.14) 

Por lo que solo necesitamos obtener vectores propios de una de las matrices. Conocido el 
vector ct podemos obtener el vector (3 con (16.14) y analogamente, conocido f3 obtenemos 
a con (16.13). Ademas de (16.10) obtenemos V^V^V^a: = A 2 V n a: y multiplicando por 
a! e imponiendo la condicion (16.1) tenemos que 

A 2 = a / Vi 2 V 22 1 V 2 ia (16.15) 

que indica que el coeficiente de correlacion canonica, A 2 ,es el cuadrado del coeficiente de 
correlacion multiple entre la variable x* = cdx y las variables y. En efect-o, las covarianzas 
entre x* ey vienen dadas por el vector V 21 ck y las correlaciones por D 22 1/2 V 2 |<u , donde D 22 
es una matriz diagonal que contiene las varianzas de las variables y. Entonces el coeficiente 
de correlacion multiple es 

p 2 = r 12 R^r 12 = (a / V 12 D 2 - 1/2 )(D 22 V 22 1 D 22 )(D 22 1/2 V 21 a) = A 2 
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16.3 Las r variables canonicas 

El proceso descrito puede continuarse, buscando una segunda variable escalar canonica, x* 2 . 
construida como combination lineal de las originales x, ortogonal a la primera, y que tenga 
maxima correlacion con otra variable escalar y 2 , combination lineal de las y y que sea a su 
vez ortogonal a y^. Asf podemos obtener 2 r combinaciones lineales, (a^, . . . x *) , (y \, . . . , y *) 
donde r — mfnim o (p. q). que llamaremos variables canonicas. Las matrices A y B dadas 
por (16.11) y (16.12) tienen un rango igual al mfnim o de p. q, y si extraemos sus r valores 
propios no nulos y los vectores propios unidos a dichos valores propios, podemos formar r 
combinaciones lineales de las variables de ambos grupos que: 

(a) Tienen correlation maxima cuando provienen del mismo valor propio. 

(b) Estan incorreladas dentro de cada grupo. 

(c) Estan incorreladas si corresponden a distint-os vectores propios. 

Vamos a demostrar este resultado. Para demostrar que las matrices A y B tienen valores 
propios reales no negativos, probaremos que A y B tienen los mismos valores propios que 
una matriz semidefinida positiva. 

Lema: Las matrices R 1 Q y R l2 QR 12 tienen los mismos valores propios. Ademas si v 
es un vector propio de la primera, R 1//2 v lo es de la segunda. 

Demostracion: Sea A un valor propio de R 1 Q y sea v su vector propio asociado. Entonces 

R -1 Qv = Av 

premultiplicando por R. l /2 se obtiene 

R 1/2 Qv = AR 1/2 v 

y escribiendo est-a relation como: 

R 1/2 QR~ 1/2 (R 1/2 v) = A(R 1/2 v) 
y llamando h = R 1//2 v, tenemos que 

R 1 / 2 QR” 1/2 h = Ah 

Por tanto, A es un valor propio de las matrices R 1 Q y R I 2 QR 12 , y su vector propio 
asociado es, respectivamente, v y R 1//2 v. 

Corolario 

Las matrices A y HH / donde 

A = VnV^V^Vs! 

H = V u 1/2 V 12 V 2 - 2 1/2 
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H H = V X1 1/2 V 12 V 22 V 2i Vn 1/2 
tienen los mismos valores propios. 

Este corolario es un caso particular del Lema tomando R = Vn, Q = V 1 2 V 22 ' V 2 | . La 
matriz A tiene los valores propios de HH 7 y la B los de H H. Como estas matrices son 
semidefinidas positivas, los valores propios de A y B son reales y no negat-ivos. Vamos a ver 
las propiedades de los vectores propios. 

Vectores propios 

Sean a t) aq dos vectores propios de A correspondientes a rafces distintas. Los vec- 
tores propios correspondientes de HH 7 para esas mismas rafces son, segun el lema, Vj( 2 cr, 
1/2 

y V 11 OLj. Como los vectores propios de matrices simetricas son ort-ogonales, tendra que 
verificarse que 

( Vn 17 ® i)' (Vil 1/2 a = a'Vua, = 0 

lo que implica que las variables x* = x'on, y x* = x'aq correspondientes a distintos indi- 
cadores del mismo grupo estan incorreladas, ya que, al tener varianza unidad, su correlation 
sera: 

Cov(x*,x*) = a^E [xx'] aq = a-Vnaj = 0. 

Demostraremos ahora que las variables indicadoras de grupos distintos correspondientes 
a distintos vectores propios, x* y y*. tambien estan incorreladas. Como 

Cov (x*,y*) = E [a-xy '(3^ = a , l V 12 (3 ] 

y utilizando (16.6) 

Cov (x*,y*) = a' (AjVnaj) = 0. 

con lo que hemos comprobado que las variables indicadores ligadas a distintos valores propios 
estan incorreladas dentro de cada grupo y entre grupos. 

16.3.1 Propiedades de las variables y correlaciones canonicas 

El procedimiento que hemos expuesto proporciona r variables canonicas cuyas propiedades 
vamos a resumir brevement-e. 

1. Las variables canonicas son indicadores de los dos conjuntos de variables que se definen 
por pares, con la condition de maxima correlation. 

2. Los coeficientes de las variables canonicas son los vectores propios ligados al mismo 
valor propio de las matrices 1 ,/2 V V^- 1 N Jt , para i = 1, 2 y i ^ j. 

3. Si cc'x es una variable canonica tambien lo es -er'x. y los signos de las variables canoni- 
cas suelen tomarse de manera que las correlaciones entre las variables canonicas cLx y 
/3'y sean posit-ivos. 
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4. Las correlaciones canonicas, Xf, son el cuadrado del coeficiente de correlacion entre las 
dos variables canonicas correspondientes. 

5. Las correlaciones canonicas son invariantes ante transformaciones lineales de las vari- 
ables, son propiedades del conjunto de variables y no se modifican si sustituimos las r 
variables de un conjunto por r combinaciones lineales de ellas linealmente independi- 
entes. (vease ejercicio 16.1) 

6. La primera correlacion canonica, A), es mayor o igual que el mayor coeficiente de 
correlacion simple al cuadrado entre una variable de cada conjunto. 

7. El coeficiente de correlacion canonica A” es el coeficiente de determinacion en una 
regresion multiple con respuesta la variable y* = /3(y, y variables explicat.ivas las x. 
Tambien es el coeficiente de determinacion entre la regresion multiple entre x* = a'x 
y el conjunto de las y. (ver ejercicio 16.3) 

Las variables canonicas son los predictores optimos en el sent-ido siguiente: supongamos 
que se desea encontrar un conjunto de r = min(p, q) variables combinaciones lineales de 
las variables de cada grupo, x* = Tx, y y* = 0y, que esten incorreladas, EViiT' = I y 
(-) V 22 LA = I y de manera que x* e y* esten proximos. Si tomamos como criterio minimizar 
E(||x* — y* || 2 ) se obtienen las variables canonicas. Este resultado es debido a Izenman(1975) 
y Yohai y Garcia Ben (1980). 

16.4 ANALISIS MUESTRAL 

En la pract-ica, los valores poblacionales no son conocidos y tendremos que est-imarlos a 
partir de la muestra. Supondremos que hemos restado las medias muestrales a cada variable 
para trabajar con variables de media cero. En la hipotesis de normalidad multivariante, 
como las variables canonicas son funciones de la matriz de covarianzas entre las variables 
y el estimador maximo verosimil de est-a matriz es S, la matriz de covarianzas muestral, 
concluimos que los estimadores maximo verosfmiles de las variables canonicas se obtienen al 
extraer los r = min(p, q) mayores valores propios, y sus vectores propios asociados, de las 
matrices 

A = S u 1 S 12 S 2 - 2 1 S 21 , 

y 

B = S 22 1 S 21 S 11 1 S 12 , 

donde las S tJ son las estimacion MV de las matrices V i? , y se obtiene particionando conve- 
nientemente la matriz S de covarianzas entre las p + q variables (vease Anderson, cap 12 
para un analisis mas detallado). Estas matrices son los equivalent.es muestrales de (16.11) y 
(16.12). 

En la pract-ica, suponiendo p > q. basta obtener los valores propios de la matriz de 
dimension menor, B en este caso, y sus vectores propios asociados. Los vectores propios lig- 
ados a estos valores propios de la otra matriz, A, se obtendran transformando estos vectores 
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de la forma S,,,- 1 S,; ? para llevarlos a la dimension adecuada. Por ejemplo, supongamos que 
v es un vector propio de B, y verifica S 22 1 S 2 iS 11 1 S 1 2 V = A 2 v, entonces, multiplicando por 
Six'S 12 t-enemos que S n 1 Si 2 S 22 1 S 2 i(S 11 1 Si 2 v) = A 2 (S n Si 2 v) y comprobamos que S n 1 Si 2 v 
es el vector propio de A ligado al valor propio A 2 . A continuation vamos a comprobar que 
las correlaciones cononicas son invariantes a transformaciones lineales de las variables.. 
Invarianza del Analisis 

Si estandarizamos las variables y trabajamos con las matrices de correlation las correla- 
ciones canonicas no varian. Al estandarizar la matriz A se convertira en: 

Rl = R 11 1 R 12 R22 1 R21) 

donde las matrices R, 7 son las matrices de correlation definidas R, 7 = D, ' “ S , :l D y l,/2 .(z. j = 
1, 2), siendo D j yD j matrices diagonales que contienen las varianzas de las variables. Vamos 

a comprobar que las matrices AyRi t-ienen los mismos valores propios. Utilizando la relation 

T? r»-V 2 e tv - 1 / 2 f 

Rjj = D, OyU ■ , t-enemos que: 

Ri = D| /2 Sr 1 1 S 1 2S 2 2 1 S2iD7 1/2 = Dj /2 AD~ 1/2 , (16.16) 

y la ecuacion para obtener los valores propios de Ri : 


R x - All = 0 


puede escribirse como 


D 1/2 ||A- AI||D" 1/2 | =0 


y las ecuaciones |Ri — AI| = 0 y | A — Al | =0 tienen las mismas soluciones, y las matrices Ri 
y A t-endran los mismos valores propios. Por tanto, las correlaciones canonicas son ident-icas. 
Los vectores propios de Ri pueden obtenerse a partir de los de A, ya que si v es un vector 
propio de Rp 


Riv = A 2 v 


entonces, por (16.16): 


Di /2 AD7 1/2 v = A 2 v, 


es decir 


A(D- 



A 2 (D1 



1 /2 " — 

y (Dr v v) es un vector propio de A ligado al mismo valor propio. Por tanto, la variable 
canonica ligada a A 2 se obtiene con variables estandarizadas multiplicando la matriz de 
variables estandarizadas (n D , l 2 j por el vector propio de Ri, v, mientras que partiendo 

de las variables originates multiplicamos la matriz X por el vector propio de A, D | 7 v, con 
lo que las dos variables obtenidas son identicas. 
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Ejemplo 16.1 Como ejemplo consideramos los datos de los hogares espanoles. Tomaremos 
como variables X los gastos en alimentacion, bebidas y tabaco (aq), en vestido y calzado (x 2 ), 
en menaje (x 3 ), en transportes y comunicacion (aq) y en esparcimiento y ensenanza (x 5 ). 
La matriz de correlaciones entre estas variables es, redondeada a la segunda cifra decimal 


1 


29 

1 



13 

.25 

1 


23 

.23 

.35 

1 

33 

.32 

.22 

.36 1 


Como variables Y incluiremos el numero de personas en la unidad de gastos (yi), el 
numero de personas mayores de 14 anos (y 2 ), el nivel educativo del sustentador principal 
( 2 / 3 ) y el numero de perceptores con ingresos ( 1 / 4 ). La matriz de correlacion es: 


R22 — 


1 

.55 1 

.11 .04 1 

.53 -.11 .00 1 


La matriz de correlaciones cruzadas entre ambos grupos de caracterfsticas es: 


46 

.03 

.22 

.40 

34 

.18 

.32 

.14 

05 

-.02 

.51 

-.02 

33 

.13 

.26 

.25 

29 

.17 

.23 

.17 


Esta matriz proporciona por filas las correlaciones de cada variable del grupo x con las y. 
La suma de los valores absolutos de las filas es una medida descriptiva global de la dependen- 
cia. La variable x mas correlada con las y es la primera, ya que la suma de las correlaciones 
(0, 46 + 0, 03 + 0, 22 + 0, 40 = 1, 11), mientras que para las demas estos numeros son 0, 98, 
0,60, 0,97 y 0,86. Por columnas las sumas son 1,47, 0,53, 1,54, 0,98. Las variables 1, 2 
y 4 del primer grupo y 1, 3 del segundo parecen ser las correlacionadas entre los bloques, 
por lo que esperamos que estas variables t-engan mayor peso en la primera variable canonica. 

Los valores y vectores propios de la matriz A = R, , R14R22R41 se encuentran en la tabla 
16.1 



486 


CAPITULO 16. CORRELACION CANONIC A 


A 2 

.44 

.21 

.05 

.01 

a 

.76 

.41 

.63 

-.11 


.43 

-.05 

-.45 

-.71 


.31 

-.87 

.34 

.08 


.38 

.27 

-.24 

.65 


.04 

-.03 

-.48 

.22 

P 

-.78 

-.51 

-.28 

-.65 


.27 

.10 

.96 

.38 


-.56 

.80 

.01 

.11 


-.07 

-.31 

.08 

.65 


Tabla 16.1. Valores y vectores propios para las variables de los hogares 


Como vemos la maxima correlacion entre una combinacion de las variables del primer 
grupo y otra del segundo se da entre la combinacion que incluye las variables (1, 2, 3,4) del 
primer grupo y (1, 3) del segundo. Esta maxima correlacion entre las variables de gasto y de 
estructura de la familia, explica un 44/(44+21+5+l)=62% de la variabilidad y corresponde 
a la relacion entre el indicador de gasto: 


x\ = .76a;i + - 4 : 3 x 2 + -31x 3 + . 38 x 4 + -04x 5 

que es un promedio de los gastos dando mayor peso a la alimentacion, con la variable 


lit = -78 yi - .272/2 + -562/ 3 + -07y 4 

donde hemos cambiado el signo del vector propio para facilitar la interpretacion. Esta 
variable pondera principalmente el tamano de la familia {ij \ ) y el nivel de educacion del 
sustent-ador principal (y 3 ). La interpretacion de este result-ado es que cuant-o mayor sea el 
indicador y* mayor sera el indicador de gasto. Ambas variables son medidas de ” tamano” 
global de las variables en ambos conjuntos. 

Las segundas variables canonicas explican un 21/71=29,58% y son indicat-ivas de la forma 
de los dat-os. El indicador de las variables de gastos contrapone los gastos en alimentacion 
y transporte a los de menaje y encuentra que este indicador esta especialmente relacionado 
un indicador de la diferencia entre el nivel de educacion y el tamano familiar. El grafico 
muestra la relacion entre las variables x£, Se observa que aquellas familiar con bajo gasto 
en menaje (x£ alto) tienen pocos miembros en la unidad familiar (tji bajo) y alto nivel de 
educacion (y 3 alto). Los ot-ros dos componentes explican muy poco de la relacion. 

Si realizamos este mismo analisis para las variables en logaritmos se obtiene la tabla 8.2. 
Se observa que ahora el primer componente explica el 50% de la variabilidad y t.iene una 
interpretacion similar al caso anterior. 
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A 2 

.50 

.06 

.01 

.001 


— .80 

.10 

.68 

-.24 


.18 

.38 

-.56 

-.21 

OL r 

-.07 

.28 

.18 

-.65 


.55 

.39 

.14 

.68 


.11 

-.78 

.57 

-.05 


-.88 

-.49 

-.53 

.43 

P 

.38 

.23 

.60 

.52 


-.27 

.84 

.04 

-.11 


.08 

-.00 

.60 

-.73 


Tabla 16.2. Valores y vectores propios para las variables en logaritmos 


16.5 INTERPRETACION GEOMETRICA 

Vamos a comprobar que las correlaciones canonicas representan relaciones de dependencia 
entre los subespacios generados por los dos conjuntos de variables. Esta propiedad justifica 
que el analisis de correlaciones canonicas sea invariante ante reparametrizaciones. Supong- 
amos que disponemos en cada conjunto de variables distintas (no relacionadas linealmente) 
de manera que las matrices X, de dimensiones n x p, e Y, de dimensiones n x q. son de 
rango completo, es decir rg(X.) = p, rg{Y) = q y p + q < n, y las p columnas de X generan 
un subespacio de dimension p y las q columnas de Y ot.ro de dimension q. Supongamos 
que estamos interesados en encontrar dos vectores, uno en cada subespacio, que esten tan 
proximos como sea posible. El primer vector, x*. por pertenecer al espacio S(X) generado 
por las columnas de X, sera de la forma x* = Xa y el segundo, y*. por pertenecer al sube- 
spacio S(Y) generado por las columnas de Y, sera y* = Y/3. Los vectores x* e y* estaran 
lo mas cerca posible (ver figma 16.1), si x* es colineal con la proyeccion de y* sobre S(X) y 
viceversa. 

Para formular esta propiedad, llamemos Pi y P 2 a las matrices proyeccion sobre los 
espacios S(X) y S(Y) que vendran dadas por: 

Pi = X(X , X)' 1 X' (16.17) 

P 2 = Y(Y'Y)” 1 Y'. (16.18) 

ent.onces la condicion exigida es: 

Piy* = Ax* 

P 2 x* = py* 

que equivale a: 

^(X'X) -1 ^] Y (3 =AXa 
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[Y(Y / Y) _1 Y / ] Xa =pY/3 

y multiplicando por 1/riX! la primera y 1/nY' la segunda, resulta S 12 /3 = AS n a: y S 2 ia = 
/ 1 S 22 /3. De la primera deducimos que = Aa y de la segunda S 22 1 S 2 iCK = p/3. 

Sustit-uyendo el valor de [3 en la primera ecuacion obtenemos 

Sn L Si 2 S 2 2 1 S2ia = pAa 


que muestra que a es 1111 vector propio de la matriz A encontrada en (16.11). Las primeras 
variables canonicas representan los vectores de S(X) y S(Y) mas proximos. 

Una medida de la distancia entre los subespacios generados por las columnas de X y las 
Y es el coseno del angulo entre ambos subespacios, que se calcula por: 


Cos 6 


(q'X'K Y0) 

(a'X'Xa) 1/2 (0 Y' Y/5) 1/2 ’ 


de donde resulta: 


Cos 6 2 = 6 2 


{ex’ S 12 /3) 2 
(a'Sn aWSnPY 


que permite concluir que la maxima correlacion canonica es el coseno del angulo que forman 
los subespacios generados por X y por Y. 



Figura 16.1: Representacidn de las primeras variables canonicas de los espacios PI y P2 

16.6 CONTRASTES 


Podemos construir un contrast-e de que los dos conjuntos de variables estan incorrelados, es 
decir, Vi 2 = 0, bajo la hipotesis de que los vectores x son A p (0, Vn) y los y son N q ( 0, V 22 ). 
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El contraste de que ambos vectores estan incorrelados es equivalents al contrasts de que 
todas las correlaciones canonicas son nulas. Lo estableceremos como: 

H 0 : V 12 = 0 


: V 12 + 0 


Bajo Hq la verosimilitud conjunta, /(x i, x n , yi, y n ), se descompone en /(x i, ..., x n ) 
/(y 1 , .... y r J. El ratio de las verosimilitudes maximas entre las dos hipotesis es: 

/(#i) (2n)~ n< ' p+q ' > |S| _n/2 e _n(p+9)/2 

f(H 0 ) (27r) _np |S n | -n/2 e~ np / 2 (2n)~ nc i \S 22 \~ n/2 e~ n( i/ 2 

donde S es la estimation de la matriz de varianzas y covarianzas conjunta y Sn y S 22 las 
estimaciones correspondientes a cada bloque. El contraste de razon de verosimilitudes sera: 

A = 2(log(#i) -log(Ho)) = n log ^ (16.19) 

l s n| P 22 I 

Como | S | = | Sn 1 1 S 22 — SaiS^Sial = | Sn 1 1 S 22 1 |I — S 22 1 S 2 iS 1 ' 1 1 S 1 2 |, tenemos que 
A = —n log ( 1 1 - S^SaiS^Sul) = -nlog (j[ (l - A 2 ) j 

donde r = min(p,q ) y A 2 son los valores propios de S 22 1 S 2 iS 11 1 S 1 2, es decir, los coeficientes 
de correlation canonica al cuadrado. Finalmente el contraste es: 

r 

A = —n ^ log(l — A 2 ) (16.20) 

3 = 1 


que sigue asintoticamente una distribution y 2 con grados de libert-ad igual al numero de 
terminos de V 12 que son pq. La aproximacion mejora si t.omamos en lugar de n, la correction 
de Bartlett n — 1/2 (p + q + 3), con lo que el test resulta: 


x 2 = - (n - ^(p + q + 3)") Yl /o ^( 1 _ A ^) (16.21) 

V J j= i 

que llevaremos a las t-ablas de las y 2 con pq grados de libertad. Rechazaremos I In cuando 
este estadfstico sea grande, lo que ocurrira cuando los coeficientes de correlation canonica 
A 2 sean grandes. 

Este contraste puede extenderse para contrastar que los primeros s coeficientes de cor- 
relation canonica son distintos de cero y los restantes r — s son iguales a cero. La hipotesis 
nula sera que la dependencia entre las variables puede expresarse mediant-e s variables indi- 
cadoras, mientras que la alternativa supone que no hay reduction de la dimension posible y 
que describir la dependencia require las r dimensiones. El test es entonces: 


Hq . A 2 >0 % 1, . . . , 5 , Ag-j-i . . . A r 0 

Hi : A* > 0 i — 1, . . . , s; al menos uno Xj > 0, j — s + 1, . . . , r 
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y el contraste de la razon de verosimilitudes conduce, como en el caso anterior, a comparar 
los determinantes de la matriz de covarianzas estimadas bajo H 0 y Hi. Bajo Hi esta esti- 
mation es S y | S | = |S n | | S 2 2 1 n;.: (1 — A 2 ), mientras que bajo H 0 el determinante estimado 
debe ser |Sn| | S 2 2 1 EI^=i (l ~ A |). Por tanto, el estadfstico para el contraste de la razon de 
verosimilitudes es: 

A = - (n - i(p + q + 3)\ log(l - X 2 ) (16.22) 

A / j= s +i 


que se distribuye como una y 2 con (p — s) (q — s ) grados de libert.ad. De nuevo rechazamos 
Hq cuando el estadfstico (16.22) sea grande. 


Ejemplo 16.2 El contraste de que dos conjuntos de variables son independientes para los 
datos de los hogares del ejemplo 16.1 sera, como 75 — (5 + 4 + 3) /2 = 69, 


x 2 = —69 (log (1 — .44) + log (1 — .21) + log (1 — .05) + log (1 — .01)) 

= 60,5 

El p valor de 60,5 en una distribution y 2 con 20 grados de libert.ad es menor de 0,0001, 
con lo que rechazamos H 0 . Aceptando que la primera es distint.a de cero, el contraste es 


x 2 = -69 (log (1 - .21) + log (1 - .05) + log (1 - .01)) = 20.498 

y corresponde a una y 2 con (5 — 1)(4 — 1) = 12 grados de libert.ad. El p valor es aproxi- 
madament.e .05, y rechazaremos H 0 . Sin embargo, para las dos rafces restantes: 


a; 2 = -69 (log (1 - .05) + log (1 - .01)) = 4.23 

y si la hipotesis de que las dos rafces son cero corresponde a una y 2 con 6 grados de libertad. 
Como el p valor de 4.23 en esta distribution aceptaremos H 0 y concluiremos que solo hay 
dos dimensiones en la relation entre las variables. 


16.7 EXTENSIONES A MAS DE DOS GRUPOS 

Supongamos que tenemos 3 conjuntos de variables X| (n x pi), X 2 (n x p 2 ), X 3 (n x p 3 ). 
Podemos buscar tres variables x* = N t a. t (i = 1, 2, 3), una en cada grupo, de manera que la 
matriz R(3 x 3) de correlaciones entre estas t.res variables resultant.e sea ” grande”. Segiin 
como dehnamos el tamano de esta matriz tenemos dist.int.os metodos. Podemos: 
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(1) Maximizar la suma de las correlaciones al cuadrado, es decir 

max r i) (16.23) 

donde r i3 = Corr (a;*, x*). 

(2) Maximizar el mayor valor propio de R. 

(3) Minimizar el determinante de R. 

En el caso de dos grupos los tres criterios conducen a los coeficientes de correlacion 
canonica. Para varios grupos estos tres criterios no llevan necesariamente a los mismos 
result-ados. Para comprobarlo, en el caso de grupos de variables la matriz de correlacion de 
las dos variables canonicas es: 


supuesto r > 0 el primer criterio conduce a maximizar r, el segundo tambien, ya que el 
mayor valor propio de R es 1 +r. En el tercer caso el determinante es |1 — r 2 \ y minimizar el 
determinante equivale a maximizar r, con lo que en los tres casos maximizamos la correlacion 
entre las combinaciones lineales. 

El calculo de las correlaciones canonicas para varios conjuntos requiere en general calculos 
it.erat.ivos. El lector int-eresado puede acudir a Kettenring (1971) y Gnanadesikan (1977). 


16.8 RELACION CON OTRAS TECNICAS ESTU- 
DIADAS 

Ademas de su interes propio, el analisis de correlaciones canonicas cubre como casos par- 
ticulares las tecnicas de regresion y, por extension, las de analisis discriminante. En efecto, 
supongamos primero el caso mas simple en que cada uno de los conjuntos t-iene unicamente 
una variable. La correlacion canonica entre x e y es el coeficiente de correlacion al cuadrado. 
En efecto, en este caso p = q = 1 y Rn = R22 = 1 y R12 = R21 = T xy . Ent-onces: 

Rn R12R22 R21 = r xy = 

Si el conjunto x t-iene varias variables p = 1 y q > 1. La correlacion canonica entre la 
variable endogena o respuesta y el conjunto de las exogenas o regresores es el cuadrado del 
coeficiente de correlacion multiple. En efecto, ahora Rn = 1, y llamando r 12 al vector de 
correlaciones ent-re la endogena y las exogenas y R22 a la matriz de correlaciones entre las 
variables exogenas: 

A 2 = R\\ R12R22 R2I = I' / l 2 -^' 22 lr 21 = R ±.2 
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Se obt-iene el mismo resultado a partir de las matrices de covarianzas: Entonces Sn = s 2 ; 

P = s 22 1 s 21 


A 2 = 



VE 

VT 


R 2 


El analisis discriminante puede tambien abordarse desde correlation canonica. Si defini- 
mos G — 1 variables explicativas y mediante: 


Hi = 1 si la observation pertenece al grupo 1, i = 1, ...,G — 1 

0 en otro caso 

Podemos disponer estas G — 1 variables binarias en una matriz Y, n x (G — 1). Por 
otro lado tendremos la matriz X, n x p de las p variables explicativas. La correlacion 
canonica entre las matrices de datos Y y X es analoga al analisis factorial discriminante. 
Puede demostrarse que, llamando S a la matriz cuadrada p + G — 1 de covarianzas entre las 
variables Y y X, y utilizando la notation del capi'tulo 13, nS n = T y nSi 2 S^S 2 i = B. 
Las correlaciones canonicas obtenidas con la matriz S 11 1 Si 2 S 22 1 S 2 i seran las obtenidas con 
la matriz T 1 B . Para ver la relation entre estas correlaciones canonicas y las obtenidas en 
analisis dicriminante con la matriz W 1 B, observemos que si llamamos a* a los vectores que 
defienen las variables canonicas y A a las correlaciones cononicas: 

T 1 Ba i = A*aj 

entonces 

(W + B) _1 Baj = Xi&i 

que puede escribirse (I + W _1 B) 1 W~ 1 Ba i = A^a*, es decir W" 1 Ba i = A*aj + AjW _1 Baj, 
que equivale a 

W-'Ba, = [Aj/(1 - Aj)]aj 

con lo que, llamando a 3 a los valores propios que definen las variables canonicas discrimi- 
nantes vemos que estas variables son identicas a las obtenidas por correlaciones cononicas y 
los valores propios que defienen estas variables estan relacionados por: 

\ 


16.9 ANALISIS CANONICO ASIMETRICO 


El analisis de correlaciones canonicas es simetrico en las variables: si intercambiamos X 
por Y, el numero de variables canonicas no se modifica, las correlaciones entre las variables 
canonicas son identicas y los vectores que definen las variables canonicas se intercambian. 



16.9. anAlisis canonico asimetrico 


493 


Existen situaciones donde esta simetrfa no es deseable. Puede ocurrir que las X sean 
variables exogenas que queremos utilizar para prever las endogenas Y, y queremos un pro- 
cedimiento que tenga en cuenta esta asimetrfa, es decir que maximice la explicacion de las 
variables Y. El analisis de correlaciones canonicas no resuelve el problema. Podemos tener 
una alt.a correlacion entre /3 ' Y y a'X y una baja correlacion entre cada variable del con- 
junto Y y a'X. Por ejemplo, supongamos que en todas las observacion se da la relacion 
aproximada : 

Vi + ■ ■ • + y q - a'x 

entonces podemos tener un coeficiente proximo a la unidad entre las dos combinaciones 
lineales (1, . . . , 1) y y cdx, pudiendo ser, sin embargo, la correlacion entre cdx y cada una 
de las variables y t baja. 

Si el objetivo es prever cada uno de los componentes podrfamos hacer regresiones entre 
cada uno de ellos y las variables x. Si las variables estan estandarizadas eso supone construir 
ecuaciones de regresion % = x'/3 ( para cada una de las q variables y donde los coeficientes de 
cada regresion vienen dados por (3 i = R~ 1 r lx . Sin embargo, de esta manera obtendrfamos 
q ecuaciones distintas, una para cada variable y. Vamos a ver como obtener una ecuacion 
unica, cdx, que tenga buenas propiedades para prever el conjunto de las y. 

Para medir la capacidad predictiva de un conjunto de variables respecto al otro se intro- 
ducen los coeficientes de redundancia, que definimos a continuacion. 


16.9.1 Coeficientes de redundancia 


Supongamos para simplificar que las variables originates estan estandarizadas (media cero 
y varianza unidad) y que las combinaciones lineales X<x, se obtienen con la condicion de 
varianza unitaria, es decir 

O -X^ Xo:?, (y.jRj XX (y.i 1. 
n 

La correlacion entre la variable ip y una variable indicadora x'o, construida como com- 
binacion lineal de las variables x, sera: 

E [yix'a] = r' lx a. 

donde r[ x = (r n , ..., r lp ) es el vector de correlaciones entre la variable iji y las p variables x. 
La correlacion de las q variables y con la variable cPx sera 

E [yx'a] = R^a 

donde R F a es la matriz (q x p) de correlaciones entre las q variables y y las variables 
x. Se define el coeficiente de redundancia para explicar el conjunto de las variables y con 
la variable x'o, como el valor promedio del cuadrado de las correlaciones entre las y y la 
variable indicadora cdx, es decir: 
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Si tenemos r = min (p, q) combinaciones lineales x'ai,... ,x'a. r , la redundancia total 
para explicar el conjunto de las variables y con el conjunto de las variables x a traves de 
estas combinaciones lineales es: 

r 

R (y|x) = y ^ CR (y|x g^) , (16.25) 

i = 1 

y es una medida de la correlacion. Analogamente podriamos construir R (x|y) que es, en 
general, distinta de R(y|x) . 

Las expresiones del coeficiente de redundancia y de la redundancia total se definen entre 
las variables y y ciertas combinaciones lineales x cx t . En el caso en que los coeficientes a se 
obtengan por correlacion canonica, puede demostrarse que 

R (y|x) = tr (16.26) 

tr yrvyy) 

que puede escribirse como: 

(16.27) 

3 = 1 ^ 

donde es el coeficiente de correlacion multiple al cuadrado en una regresion entre la 
variable yj y el conjunto de las variables X. En efecto, el numerador de (16.26) es la suma 
de los terminos diagonales de la matriz, que tienen la forma r 1 R,J r yjX , que es la expresion 
del cuadrado del coeficiente de correlacion multiple entre una variable y 3 y un vector de 
variables x, ambas estandarizadas, y el denominador tr (R ra ) = q, por est-ar las variables 
estandarizadas. 

16.9.2 Analisis canonico asimetrico 

Supongamos que se desea encontrar la combination x'cx con maxima correlacion con cada 
variable y, individualmente, de manera que la suma de las correlaciones al cuadrado entre 
x' a y las variables y sea maxima. Esto supone maximizar a.'H xy Ily X ct con la restriction 
cx.'IA xx ol = 1, lo que conduce a la ecuacion 

y vemos que a. debe ser un vector propio de la matriz H = R,.,J . 

Analogamente a correlation canonica podriamos preguntarnos por una segunda variable 
x' a 2 , ortogonal a la primera, que tenga maxima correlacion con el vector de variables endo- 
genas. Este problema lleva a tomar el segundo vector propio de la matriz H. De la misma 
forma, las restantes variables x / cx 3 , . . . ,x'a q (suponemos p > q) se obtendran como vectores 
propios de la matriz H. 

Este mismo analisis puede aplicarse para explicar las variables X con las Y, pero aho- 
ra el problema no es simetrico, ya que los vectores propios de las matrices R~) R^R.^ y 
R-yJ R-2/xR-.xy no seran en general iguales, ni estas matrices tendran vectores propios ortogo- 
nales. 

Este tipo de analisis ha sido desarrollado por Stewart y Love (1968) y Gudmundsson 
(1977). 
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16.10 Lecturas complementarias 

El analisis de correlaciones canonicas se presenta en la mayorfa de los textos generales de 
analisis multivariante. Buenas exposiciones del analisis de correlaciones canonicas se encuen- 
tran en Rechner (1998) y Anderson (1984). El lector interesado en un estudio mas detallado 
de las distribuciones de los estadfsticos puede acudir a Muirhead (1982). El analisis canoni- 
co se ha utilizado mucho en series temporales para deter mi ner la dimension de una serie 
temporal. Algunas de estas aplicaciones pueden encontrarse en Pena, Tiao and Tsay (2001). 

EJERCICIOS 

16.1 Demost-rar que si transformamos las variables con y n = Fy + a y x„ = Gx + a, 
donde Fy G son matrices no singulares las correlaciones canonicas obtenidas con las matrices 
de varianzas y covarianzas de estas nuevas variables son ident-icas a las de las variables 
originales (sugerencia, calcular la matriz A n (16.11) para estas nuevas variables y comprobar 
que A„ se escribe como A n = (G / ) _1 A n G / ) 

16.2 Comprobar que si transformamos las variables como en el ejercicio anterior las 
variables canonicas si se modifican 

16.3 Demostrar que el coeficiente de correlacion canonica A” es el coeficiente de determi- 
nacion en una regresion multiple con respuest.a la variable y* = /3)y, y variables explicat-ivas 
las x. (Sugerencia, comprobar que la correlacion entre y* y x es /3)V 2 1 y utilizar la expresion 
del coeficiente de correlacion multiple como r, y .,,R “ 1 r yx y la expresion (16.15)). 
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Apendice A 

Datos 


En este capi'tulo figuran las tablas de datos y una breve description de las variables de todos 
los conjuntos de datos analizados en el libro. 

La siguiente tabla muestra asociado al nombre de cada conjunto las tecnicas multivari- 
antes que se le ban aplicado. 



EUROALI 

EUROSEC 

EPF 

INVEST 

MEDIFIS 

MUNDODES 

Comp. Principales 
Anal. Factorial 
Correlaciones Cano. 
Cordenadas Prin. 
Anal. Discriminante 
Anal, de Congl. 
Regre. Logist. 
Descriptiva 
Anal, de corres. 

★ 

★ 

★ 

★ 

★ 

★ 

★ 
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APENDICEA. DATOS 


EUROALI 



CR 

CB 

H 

L 

P 

C 

F 

N 

FV 

Albania 

10.1 

1.4 

0.5 

8.9 

0.2 

42.3 

0.6 

5.5 

1.7 

Austria 

8.9 

14 

4.3 

19.9 

2.1 

28 

3.6 

1.3 

4.3 

Belgica 

13.5 

9.3 

4.1 

17.5 

4.5 

26.6 

5.7 

2.1 

4 

Bulgaria 

7.8 

6 

1.6 

8.3 

1.2 

56.7 

1.1 

3.7 

4.2 

Checoslova. 

9.7 

11.4 

2.8 

12.5 

2 

34.3 

5 

1.1 

4 

Dinamarca 

10.6 

10.8 

3.7 

25 

9.9 

21.9 

4.8 

0.7 

2.4 

Alemania-E. 

8.4 

11.6 

3.7 

11.1 

5.4 

24.6 

6.5 

0.8 

3.6 

Finlandia 

9.5 

4.9 

2.7 

33.7 

5.8 

26.3 

5.1 

1 

1.4 

Francia 

18 

9.9 

3.3 

19.5 

5.7 

28.1 

4.8 

2.4 

6.5 

Grecia 

10.2 

3 

2.8 

17.6 

5.9 

41.7 

2.2 

7.8 

6.5 

Hungria 

5.3 

12.4 

2.9 

9.7 

0.3 

40.1 

4 

5.4 

4.2 

Irlanda 

13.9 

10 

4.7 

25.8 

2.2 

24 

6.2 

1.6 

2.9 

Italia 

9 

5.1 

2.9 

13.7 

3.4 

36.8 

2.1 

4.3 

6.7 

Pai'ses Bajos 

9.5 

13.6 

3.6 

23.4 

2.5 

22.4 

4.2 

1.8 

3.7 

Noruega 

9.4 

4.7 

2.7 

23.3 

9.7 

23 

4.6 

1.6 

2.7 

Polonia 

6.9 

10.2 

2.7 

19.3 

3 

36.1 

5.9 

2 

6.6 

Portugal 

6.2 

3.7 

1.1 

4.9 

14.2 

27 

5.9 

4.7 

7.9 

Rumania 

6.2 

6.3 

1.5 

11.1 

1 

49.6 

3.1 

5.3 

2.8 

Espana 

7.1 

3.4 

3.1 

8.6 

7 

29.2 

5.7 

5.9 

7.2 

Suecia 

9.9 

7.8 

3.5 

24.7 

7.5 

19.5 

3.7 

1.4 

2 

Suiza 

13.1 

10.1 

3.1 

23.8 

2.3 

25.6 

2.8 

2.4 

4.9 

Reino Unido 

17.4 

5.7 

4.7 

20.6 

4.3 

24.3 

4.7 

3.4 

3.3 

URSS 

9.3 

4.6 

2.1 

16.6 

3 

43.6 

6.4 

3.4 

2.9 

Alemania-O. 

11.4 

12.5 

4.1 

18.8 

3.4 

18.6 

5.2 

1.5 

3.8 

Yugoslavia 

4.4 

5 

1.2 

9.5 

0.6 

55.9 

3 

5.7 

3.2 


Tabla A.l: Datos EUROALI 


EUROALI Este conjunto de dat-os esta constituido por 25 observaciones y 9 variables. 
Las obsrvaciones corresponden a pai'ses Europeos, y las variables al porcentaje de consumo 
de protemas que cada tipo de alimento proporciona. 

Las variables son: Carnes rojas (CR), Carnes blancas (CB), Huevos (H), Leche (L), 
Pescado (P), Cereales (C), Fecula (F), Nueces (N), Frut-a y verdura (FV). 

Datos : Tabla A. 1 
Fuente: Eurostat, 1999 


EUROSEC El numero de observaciones es 26 y el de variables 9. Las observaciones 
corresponden a pai'ses Europeos. Las variables miden el porcentaje de empleo en los dist-int-os 
sectores economicos. 
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EUROSEC 



Agr 

Min 

Man 

PS 

Con 

SI 

Fin 

SPS 

TC 

Belgica 

3.3 

0.9 

27.6 

0.9 

8.2 

19.1 

6.2 

26.6 

7.2 

Dinamarca 

9.2 

0.1 

21.8 

0.6 

8.3 

14.6 

6.5 

32.2 

7.1 

Francia 

10.8 

0.8 

27.5 

0.9 

8.9 

16.8 

6 

22.6 

5.7 

Alemania-E 

6.7 

1.3 

35.8 

0.9 

7.3 

14.4 

5 

22.3 

6.1 

Irlanda 

23.2 

1 

20.7 

1.3 

7.5 

16.8 

2.8 

20.8 

6.1 

Italia 

15.9 

0.6 

27.6 

0.5 

10 

18.1 

1.6 

20.1 

5.7 

Luxenburgo 

7.7 

3.1 

30.8 

0.8 

9.2 

18.5 

4.6 

19.2 

6.2 

Paises Bajos 

6.3 

0.1 

22.5 

1 

9.9 

18 

6.8 

28.5 

6.8 

Reino Unido 

2.7 

1.4 

30.2 

1.4 

6.9 

16.9 

5.7 

28.3 

6.4 

Austria 

12.7 

1.1 

30.2 

1.4 

9 

16.8 

4.9 

16.8 

7 

Finlandia 

13 

0.4 

25.9 

1.3 

7.4 

14.7 

5.5 

24.3 

7.6 

Grecia 

41.4 

0.6 

17.6 

0.6 

8.1 

11.5 

2.4 

11 

6.7 

Noruega 

9 

0.5 

22.4 

0.8 

8.6 

16.9 

4.7 

27.6 

9.4 

Portugal 

27.8 

0.3 

24.5 

0.6 

8.4 

13.3 

2.7 

16.7 

5.7 

Espana 

22.9 

0.8 

28.5 

0.7 

11.5 

9.7 

8.5 

11.8 

5.5 

Suecia 

6.1 

0.4 

25.9 

0.8 

7.2 

14.4 

6 

32.4 

6.8 

Suiza 

7.7 

0.2 

37.8 

0.8 

9.5 

17.5 

5.3 

15.4 

5.7 

Turkia 

66.8 

0.7 

7.9 

0.1 

2.8 

5.2 

1.1 

11.9 

3.2 

Bulgaria 

23.6 

1.9 

32.3 

0.6 

7.9 

8 

0.7 

18.2 

6.7 

Checos. 

16.5 

2.9 

35.5 

1.2 

8.7 

9.2 

0.9 

17.9 

7 

Alemania-0 

4.2 

2.9 

41.2 

1.3 

7.6 

11.2 

1.2 

22.1 

8.4 

Hungria 

21.7 

3.1 

29.6 

1.9 

8.2 

9.4 

0.9 

17.2 

8 

Polonia 

31.1 

2.5 

25.7 

0.9 

8.4 

7.5 

0.9 

16.1 

6.9 

Rumania 

34.7 

2.1 

30.1 

0.6 

8.7 

5.9 

1.3 

11.7 

5 

URSS 

23.7 

1.4 

25.8 

0.6 

9.2 

6.1 

0.5 

23.6 

9.3 

Yugoslavia 

48.7 

1.5 

16.8 

1.1 

4.9 

6.4 

11.3 

5.3 

4 


Tabla A. 2: Datos EUROSEC 


Los sectores son: Agricultura, Minerfa, Industria, Energfa, Construction, Servicios In- 
dustriales, Finanzas, Servicios, Transportes y Comunicaciones. 

Datos: Tabla A.2 

Fuente: Euromonitor (1979, pp. 76-77). 
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ENCIJESTA DE PRESUPIJESTOS FAMILIARES 



Xi 

x 2 

x 3 

x 4 

x 5 

x 6 

X 7 

x 8 

x 9 

Almerfa 

618957 

295452 

522128 

167067 

58288 

280035 

129219 

307967 

107334 

Cadiz 

683940 

203619 

426690 

124162 

60657 

285888 

127792 

313238 

83523 

Cordoba 

590770 

265604 

487143 

113386 

37131 

237320 

116764 

247536 

79924 

Granada 

547353 

238822 

458338 

119540 

40340 

236694 

103901 

272308 

72813 

Huelva 

649225 

245722 

570631 

99250 

61953 

253286 

123244 

238880 

83070 

Jaen 

556210 

183295 

332662 

86364 

37160 

136992 

57607 

189811 

57311 

Malaga 

617778 

201348 

508252 

121010 

63518 

256973 

128336 

323632 

93971 

Sevilla 

621570 

208156 

549399 

137408 

45101 

298000 

118269 

308524 

84514 

Huesca 

577107 

249310 

412907 

107976 

39602 

335334 

90547 

227266 

92103 

Teruel 

545238 

199788 

343919 

122154 

42281 

224286 

90291 

237747 

77938 

Zaragoza 

556737 

266468 

496989 

132517 

54106 

235188 

118931 

282369 

79718 

Asturias 

624941 

280273 

530828 

132066 

57679 

340013 

149265 

315478 

120856 

Baleares 

564220 

226816 

602397 

144005 

86803 

358290 

150551 

351555 

131802 

Las Palmas 

632640 

201704 

522846 

153775 

84148 

327988 

173031 

305628 

114627 

Tenerife 

523476 

171072 

467424 

118857 

65247 

303598 

142620 

283563 

80959 

Cantabria 

604083 

287943 

654929 

119269 

63320 

302277 

116752 

276663 

105421 

Avila 

543595 

242609 

388063 

92808 

47035 

254563 

74522 

250853 

82061 

Burgos 

602307 

255567 

600121 

162166 

51308 

280023 

132161 

301813 

111224 

Leon 

623047 

245240 

500414 

136030 

41667 

333066 

119657 

267506 

146434 

Palencia 

589710 

206048 

449113 

113714 

34787 

248620 

115825 

294068 

109264 

Salamanca 

488784 

167814 

400049 

78217 

24476 

195065 

69846 

193056 

54442 

Segovia 

528040 

184840 

455368 

103446 

46337 

217156 

91436 

259705 

116303 

Soria 

679722 

232673 

503695 

129768 

55000 

272249 

117587 

300014 

120803 

Valladolid 

567361 

223201 

566433 

140573 

46111 

254216 

149041 

327774 

98430 

Zamora 

544527 

178835 

402354 

99953 

32143 

227163 

70283 

231577 

125332 

Albacete 

535939 

199559 

425598 

137799 

55967 

232209 

104866 

291708 

91735 

Ciudad Real 

545912 

227255 

487651 

125740 

44001 

230820 

88650 

230213 

90886 

Cuenca 

506814 

194156 

420488 

109533 

50961 

220678 

78673 

270038 

103288 

Guadalajara 

546909 

179824 

477446 

115585 

40129 

299174 

94923 

287703 

87720 

Toledo 

583325 

255527 

411896 

130747 

65345 

282127 

105872 

241749 

122189 

Barcelona 

702920 

257429 

702315 

168696 

97595 

365255 

239187 

379319 

99929 

Gerona 

684186 

285047 

566149 

149308 

77553 

259839 

191400 

329089 

134786 

Lerida 

696542 

283134 

508906 

146773 

90828 

402073 

180652 

353124 

152924 

Tarragona 

586122 

283112 

557653 

150464 

62853 

331848 

185713 

381485 

114876 

Alicante 

579355 

205685 

490235 

134254 

68141 

297939 

117710 

316675 

111756 

Castellon 

496559 

201606 

411972 

107739 

42939 

212051 

84610 

241795 

77370 

Valencia 

539570 

228072 

464127 

138419 

62471 

285948 

134751 

384939 

96564 

Badajoz 

430442 

204529 

332948 

91831 

41112 

187500 

77481 

203808 

61478 

Caceres 

569808 

222756 

403547 

119078 

47904 

248571 

100282 

285880 

89736 


EPF (continua) 
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Xi 

x 2 

x 3 

x 4 

x 5 

x 6 

X 7 

x 8 

x 9 

La Coruna 

692445 

249121 

506616 

141805 

56114 

277401 

142246 

289111 

108489 

Lugo 

719078 

286277 

414893 

142629 

62779 

301867 

101889 

216693 

119398 

Orense 

598669 

182378 

370866 

106873 

31779 

221028 

114728 

205921 

90184 

Pontevedra 

736441 

263479 

468984 

136204 

50815 

344289 

129685 

309349 

100255 

Madrid 

670577 

253928 

864553 

148014 

86601 

393664 

232387 

440275 

130290 

Murcia 

610718 

210169 

470859 

128627 

46866 

318508 

102978 

311262 

114457 

Navarra 

669082 

324877 

704572 

221954 

81180 

415313 

185493 

411027 

156493 

Alava 

664450 

234132 

631137 

189169 

58406 

313033 

164730 

355280 

98942 

Guipuzcua 

643141 

254653 

668435 

151454 

61985 

302491 

169527 

405259 

109995 

Vizcaya 

635929 

283160 

677817 

156612 

67899 

337253 

176222 

423122 

132572 

La Rioja 

634839 

209753 

542656 

127615 

54684 

269843 

126717 

322845 

121844 

Ceuta y Melilla. 

678733 

192344 

362317 

81673 

27191 

138705 

81979 

226279 

65135 


Tab la A. 3: EPF 


EPF Estos datos corresponden a 51 observaciones y 9 variables. Las observaciones son las 
provincias espanolas mas Ceuta yMelilla, que aparecen unidas como una unica provincia, y 
las variables los nueve epi'grafes en los que se desglosa la Encuesta de Presupuestos Familiares 
en Espana. 

Las variables son: Xi= alimentacion, X 2 = vest-ido y calzado, X 3 = vivienda, X 4 = movil- 
iario domestico, X 5 = gastos sanitarios, X f) = transporte, X 7 = ensenanza y cultura, X 8 = 
turismo y ocio, X 9 = ot-ros gastos. 

Datos tabla A. 3 

Fuente: Encuesta de Presupuestos Familiares del ano 1990/91 
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APENDICEA. DATOS 


PUBLICACIONES CIENTIFICAS DE LOS PAISES DE 


A OCDE 



INTER.A 

INTER.F 

AGRIC. 

BIOLO. 

MEDIC. 

QUIMI. 

INGEN. 

FISICA 

EE.UU 

815.319 

379.851 

88.663 

58.104 

255.864 

440.134 

111.015 

162.288 

UK 

162.103 

90.332 

35.158 

29.802 

59.63 

92.725 

6.409 

34.349 

JP 

105.856 

78.811 

13.978 

16.758 

55.634 

308.926 

32.039 

40.538 

F 

118.935 

76.186 

13.818 

11.253 

49.938 

120.065 

9.984 

35.792 

G 

91.099 

85.037 

11.74 

20.337 

41.233 

66.087 

11.304 

22.093 

C 

72.722 

49.459 

14.041 

16.722 

23.139 

101.9 

12.034 

14.645 

I 

42.905 

29.734 

7.904 

13.444 

31.078 

36.322 

5.833 

11.351 

A 

36.121 

22.236 

12.419 

9.863 

12.186 

19.641 

4.898 

6.299 

H 

29.912 

18.036 

6.563 

7.548 

13.721 

23.029 

3.798 

6.775 

S 

28.568 

16.19 

3.985 

9.502 

14.852 

18.341 

2.387 

3.549 

CH 

26.495 

14.518 

3.378 

3.636 

11.096 

19.304 

2.556 

5.784 

E 

16.425 

11.818 

3.089 

3.981 

7.196 

15.493 

1.258 

2.692 

B 

17.311 

11.791 

3.24 

4.011 

8.098 

11.964 

1.772 

3.417 

D 

14.677 

555 

2.635 

5.667 

8.368 

14.266 

1.197 

1.999 

AU 

10.957 

13.154 

1.433 

2.372 

5.928 

6.713 

1.318 

2.278 

FI 

11.012 

6.457 

2.028 

4.756 

5.731 

6.647 

1.001 

1.669 

N 

9.075 

5.432 

1.803 

3.299 

4.801 

5.326 

912 

853 

Y 

4.686 

2.957 

2.031 

1.194 

1.806 

7.046 

801 

1.861 

GR 

3.72 

2.749 

692 

1.293 

1.518 

2.415 

896 

1.366 

IR 

6.786 

214 

432 

1.119 

1.355 

98 

522 

941 

P 

1.221 

1.929 

388 

386 

564 

12 

493 

413 


Tabla A.4: Datos INVEST 


INVEST Este conjunto de datos presenta 21 observaciones de 8 variables. Las observa- 
ciones corrsponden a los pai'ses de la OCDE y las variables son el mimero de publicaciones 
cienti'ficas recogidas en el trienio 1982-84 en ocho bases de datos de produccion cientffica. 
Las variables se ban llamado segun la orientacion de la base de datos: InterA(por interdis- 
ciplinaria), Inter F (por interdisciplinaria) , Agric., Biolo., Medic., Quimic., Ingen. y Fi'sica. 
Datos: tabla A.4 
Fuente: Caballero y Pena (1987). 
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MEDIDAS FISICAS 


Obs. 

sexo 

est 

pes 

pie 

lbr 

aes 

dcr 

lrt 

1 

0 

159 

49 

36 

68 

42 

57 

40 

2 

1 

164 

62 

39 

73 

44 

55 

44 

3 

0 

172 

65 

38 

75 

48 

58 

44 

4 

0 

167 

52 

37 

73 

41.5 

58 

44 

5 

0 

164 

51 

36 

71 

44.5 

54 

40 

6 

0 

161 

67 

38 

71 

44 

56 

42 

7 

0 

168 

48 

39 

72.5 

41 

54.5 

43 

8 

1 

181 

74 

43 

74 

50 

60 

47 

9 

1 

183 

74 

41 

79 

47.5 

59.5 

47 

10 

0 

158 

50 

36 

68.5 

44 

57 

41 

11 

0 

156 

65 

36 

68 

46 

58 

41 

12 

1 

173 

64 

40 

79 

48 

56.5 

47 

13 

0 

158 

43 

36 

68 

43 

55 

39 

14 

1 

178 

74 

42 

75 

50 

59 

45 

15 

1 

181 

76 

43 

83 

51 

57 

43 

16 

1 

182 

91 

41 

83 

53 

59 

43 

17 

1 

176 

73 

42 

78 

48 

58 

45 

18 

0 

162 

68 

39 

72 

44 

59 

42 

19 

0 

156 

52 

36 

67 

36 

56 

41 

20 

0 

152 

45 

34 

66 

40 

55 

38 

21 

1 

181 

80 

43 

76 

49 

57 

46 

22 

1 

173 

69 

41 

74 

48 

56 

44 

23 

0 

155 

53 

36 

67 

43 

56 

38 

24 

1 

189 

87 

45 

82 

53 

61 

52 

25 

0 

170 

70 

38 

73 

45 

56 

43 

26 

1 

170 

67 

40 

77 

46.5 

58 

44.5 

27 

0 

168 

56 

37.5 

70.5 

48 

60 

40 


Tabla A. 5: Datos MEDIFIS 


MEDIFIS Este conjuiito de datos contiene 28 observaciones de 8 variables. Las observa- 
ciones cooresponde a estudiantes espanoles y las variables a sus caracten'sticas flsicas. Las 
variables son: genero (0 mujer, 1 hombre), estatura (en cm), peso (en Kgr), longitud de pie 
(en cm.), longitud de brazo (en cm.), anchura de la espalda (en cm.), diametro del craneo 
(en cm.), longitud entre la rodilla y el t-obillo (en cm.). 

Datos: tabla A. 5 
Fuente:Elaboracion propia 
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APENDICEA. DATOS 


DESARRPLLO EN EL MIJNDO 



Tasa Nat. 

Tasa Mort. 

Mort. Inf 

Esp.Hom 

Esp.Muj. 

PNB 

Albania 

24,7 

5,7 

30,8 

69,6 

75,5 

600 

Bulgaria 

12,5 

11,9 

14,4 

68,3 

74,7 

2250 

Checos. 

13,4 

11,7 

11,3 

71,8 

77,7 

2980 

Hungria 

11,6 

13,4 

14,8 

65,4 

73,8 

2780 

Polonia 

14,3 

10,2 

16 

67,2 

75,7 

1690 

Rumania 

13,6 

10,7 

26,9 

66,5 

72,4 

1640 

URSS 

17,7 

10 

23 

64,6 

74 

2242 

Bielorrusia 

15,2 

9,5 

13,1 

66,4 

75,9 

1880 

Ucrania 

13,4 

11,6 

13 

66,4 

74,8 

1320 

Argentina 

20,7 

8,4 

25,7 

65,5 

72,7 

2370 

Bolivia 

46,6 

18 

111 

51 

55,4 

630 

Brasil 

28,6 

7,9 

63 

62,3 

67,6 

2680 

Chile 

23,4 

5,8 

17,1 

68,1 

75,1 

1940 

Colombia 

27,4 

6,1 

40 

63,4 

69,2 

1260 

Ecuador 

32,9 

7,4 

63 

63,4 

67,6 

980 

Guayana 

28,3 

7,3 

56 

60,4 

66,1 

330 

Paraguay 

34,8 

6,6 

42 

64,4 

68,5 

1110 

Perri 

32,9 

8,3 

109,9 

56,8 

66,5 

1160 

Uruguay 

18 

9,6 

21,9 

68,4 

74,9 

2560 

Venezuela 

27,5 

4,4 

23,3 

66,7 

72,8 

2560 

Mexico 

29 

23,2 

43 

62,1 

66 

2490 

Belgica 

12 

10,6 

7,9 

70 

76,8 

15540 

Finlandia 

13,2 

10,1 

5,8 

70,7 

78,7 

26040 

Dinamarca 

12,4 

11,9 

7,5 

71,8 

77,7 

22080 

Francia 

13,6 

9,4 

7,4 

72,3 

80,5 

19490 

Alemania 

11,4 

11,2 

7,4 

71,8 

78,4 

22320 

Grecia 

10,1 

9,2 

11 

65,4 

74 

5990 

Irlanda 

15,1 

9,1 

7,5 

71 

76,7 

9550 

Italia 

9,7 

9,1 

8,8 

72 

78,6 

16830 

Paises Bajos 

13,2 

8,6 

7,1 

73,3 

79,9 

17320 

Noruega 

14,3 

10,7 

7,8 

67,2 

75,7 

23120 

Portugal 

11,9 

9,5 

13,1 

66,5 

72,4 

7600 

Espana 

10,7 

8,2 

8,1 

72,5 

78,6 

11020 

Suecia 

14,5 

11,1 

5,6 

74,2 

80 

23660 

Suiza 

12,5 

9,5 

7,1 

73,9 

80 

34064 

Reino Unido 

13,6 

11,5 

8,4 

72,2 

77,9 

16100 

Austria 

14,9 

7,4 

8 

73,3 

79,6 

17000 

Japon 

9,9 

6,7 

4,5 

75,9 

81,8 

25430 

Canada 

14,5 

7,3 

7,2 

73 

79,8 

20470 


MUNDODES (continua) 
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Tasa Nat 

Tasa Mort 

EEUU 

16,7 

8,1 

Afganistan 

40,4 

18,7 

Bahrein 

28,4 

3,8 

Iran 

42,5 

11,5 

Irak 

42,6 

7,8 

Israel 

22,3 

6,3 

Jordania 

38,9 

6,4 

Kuwait 

26,8 

2,2 

Oman 

45,6 

7,8 

Arabia Saudi 

42,1 

7,6 

Turkia 

29,2 

8,4 

Emiratos Arabes 

22,8 

3,8 

Bangladesh 

42,2 

15,5 

China 

21,2 

6,7 

Hong Kong 

11,7 

4,9 

India 

30,5 

10,2 

Indonesia 

28,6 

9,4 

Malasia 

31,6 

5,6 

Mongolia 

36,1 

8,8 

Nepal 

39,6 

14,8 

Pakistan 

30,3 

8,1 

Filipinas 

33,2 

7,7 

Singapur 

17,8 

5,2 

Srilanka 

21,3 

6,2 

Tailandia 

22,3 

7,7 

Argelia 

35,5 

8,3 

Angola 

47,2 

20,2 

Botswana 

48,5 

11,6 

Congo 

46,1 

14,6 

Egipto 

38,8 

9,5 

Etiopia 

48,6 

20,7 

Gabon 

39,4 

16,8 

Gambia 

47,4 

21,4 

Ghana 

44,4 

13,1 

Kenya 

47 

11,3 

Libia 

44 

9,4 

Malawi 

48,3 

25 

Marruecos 

35,5 

A 

9,8 

UNDODES 


Mort. Inf 

Esp.Hom 

Esp.Muj. 

PNB 

9,1 

71,5 

78,3 

21790 

181,6 

41 

42 

168 

16 

66,8 

69,4 

6340 

108,1 

55,8 

55 

2490 

69 

63 

64,8 

3020 

9,7 

73,9 

77,4 

10920 

44 

64,2 

67,8 

1240 

15,6 

71,2 

75,4 

16150 

40 

62,2 

65,8 

5220 

71 

61,7 

65,2 

7050 

76 

62,5 

65,8 

1630 

26 

68,6 

72,9 

19860 

119 

56,9 

56 

210 

32 

68 

70,9 

380 

6,1 

74,3 

80,1 

14210 

91 

52,5 

52,1 

350 

75 

58,5 

62 

570 

24 

67,5 

71,6 

2320 

68 

60 

62,5 

110 

128 

50,9 

48,1 

170 

107,7 

59 

59,2 

380 

45 

62,5 

66,1 

730 

7,5 

68,7 

74 

11160 

19,4 

67,8 

71,7 

470 

28 

63,8 

68,9 

1420 

74 

61,6 

63,3 

2060 

137 

42,9 

46,1 

610 

67 

52,3 

59,7 

2040 

73 

50,1 

55,3 

1010 

49,4 

57,8 

60,3 

600 

137 

42,4 

45,6 

120 

103 

49,9 

53,2 

390 

143 

41,4 

44,6 

260 

90 

52,2 

55,8 

390 

72 

56,5 

60,5 

370 

82 

59,1 

62,6 

5310 

130 

38,1 

41,2 

200 

82 

59,1 

62,5 

960 


(continua) 
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APENDICEA. DATOS 



Tasa Nat. 

Tasa Mort 

Mort.Inf 

Esp.Hom 

Esp.Muj. 

PNB 

Mozambique 

45 

18,5 

141 

44,9 

48,1 

80 

Namibia 

44 

12,1 

135 

55 

57,5 

1030 

Nigeria 

48,5 

15,6 

105 

48,8 

52,2 

360 

Sierra Leona 

48,2 

23,4 

154 

39,4 

42,6 

240 

Somalia 

50,1 

20,2 

132 

43,4 

46,6 

120 

Surafrica 

32,1 

9,9 

72 

57,5 

63,5 

2530 

Sudan 

44,6 

15,8 

108 

48,6 

51 

480 

Swaziland 

46,8 

12,5 

118 

42,9 

49,5 

810 

Tunez 

31,1 

7,3 

52 

64,9 

66,4 

1440 

Uganda 

52,2 

15,6 

103 

49,9 

52,7 

220 

Tanzania 

50,5 

14 

106 

51,3 

54,7 

110 

Zaire 

45,6 

14,2 

83 

50,3 

53,7 

220 

Zambia 

51,1 

13,7 

80 

50,4 

52,5 

420 

Zimbabwe 

41,7 

10,3 

66 

56,5 

60,1 

640 


Tabla A. 6: MUNDODES) 


MUNDODES Este conjunto de datos consta de 91observaciones y 6 variables. Las ob- 
servaciones corresponden a 91 pai'ses. Las variables son indicadores de desarrollo. Las seis 
variables son : 


Tasa Nat.: 

Tasa Mort: 

Mort.Inf: 

Esp.Hom: 

Esp.Muj.: 

PNB: 


Ratio de natalidad por 1000 habitantes 
Ratio de mortalidad por 1000 habitantes 
Mortalidad infantil (por debajo de un ano) 
Esperanza de vida en hombres 
Esperanza de vida en mujeres 
Producto Nacional Bruto per capita 


Datos: tabla A. 6 

Fuente: ” UNESCO 1990 Demographic Year Book” y de ’’The Annual Register 1992”. 
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ACCIOl 

MES DE LA BOLSA DE 

VIADRID 

Obs. 

x 1 

A 2 

A3 


Obs. 


A 2 

A3 

1 

3.4 

89.7 

30.2 


18 

4.4 

58.5 

12.1 

2 

5.1 

55.7 

9.9 


19 

7.8 

84.3 

11.0 

3 

4.5 

52.3 

11.5 


20 

16.0 

96.5 

6.0 

4 

3.5 

47.0 

11.2 


21 

16.7 

100.0 

6.8 

5 

5.9 

42.7 

7.0 


22 

15.2 

92.3 

5.2 

6 

5.1 

30.6 

6.9 


23 

17.5 

99.9 

6.8 

7 

4.6 

64.4 

11.8 


24 

16.2 

93.5 

6.1 

8 

5.0 

51.0 

9.6 


25 

14.7 

100.0 

6.6 

9 

3.2 

54.4 

14.7 


26 

15.3 

99.9 

5.9 

10 

3.4 

45.7 

13.2 


27 

15.8 

100.0 

6.9 

11 

6.5 

39.9 

5.2 


28 

18.3 

96.3 

5.7 

12 

4.4 

40.3 

13.7 


29 

15.9 

100.0 

6.1 

13 

5.1 

52.4 

11.0 


30 

16.1 

92.5 

6.1 

14 

5.8 

43.9 

8.0 


31 

9.7 

87.6 

7.7 

15 

4.6 

52.8 

14.4 


32 

6.9 

53.6 

6.6 

16 

7.2 

65.8 

7.8 


33 

14.4 

87.8 

5.2 

17 

7.2 

58.1 

7.7 


34 

14.9 

34.5 

4.69 


Tabla A. 7: ACCIONES 


ACCIONES Este conjunto de datos presenta 34 observaciones y 3 variables. Las obser- 
vaciones corresponden a distintas acciones que cotizan en el mercado continuo espanol y las 
variables a tres medidas de rentabilidad de estas acciones durante un perfodo de tiernpo. 
Las variables son : X\ es la rentabilidad efectiva por dividendos, A 2 es la proportion de 
beneficios que va a dividendos y X 3 el ratio entre precio por accion y beneficios. 

Datos : Tabla A. 7 
Fuente: Elaboration propia 



